要求4周内完成。
1、给定关键词和目标网站,爬虫每次取一个关键词,使用site参数,到baidu、google中进行搜索。支持定时采集、增量采集。
2、存下所有的搜索结果链接。
3、按每个链接,获取到标题、正文、元数据等。
4、生成xml
特别要求:正文抽取需要完全采用自动的方式,不需要人工定义任何的标签,根据网页内容,自动抽取标题、时间、正文、作者等标签。
需要考虑到普通网站、新闻网站、博客、论坛几种情况,给定的网站中,可以给出目标网站的类型。
是否需要采用几种不同的内容抽取算法,以适应不同的网站类型,这个可按开发者自行决定。