2009年3月24日星期二

【毕设】每周情况-第5周

本周完成情况:

  本周按师兄的要求修改需求规格说明文档,初步完成了工具的页面爬取模块。

  在研究开源爬虫时,调试过很多代码。如Nutch、JSpider、WebSPHINX等,由于不合适都放弃了,而Arachnid、WebLech虽然代码简单,但是很难扩展复杂的功能,所以也不能用于项目。最后选用的是Heritrix。它是一个爬虫框架,始于2003年初,目前仍在更新。版本号是1.14.3。它的优点主要是主题爬虫(集中于被选择的问题)、持续爬虫(更新网页的爬取)、可扩展(组件可更换);但也有缺点,如Windows环境下配置复杂、资源占用多等。由于维基百科网站的词条页面都很有规律,所以可以定制正则表达式来抓取相应URL:http://en.wikipedia.org/wiki/[\\d]。写一个继承自Extractor的新类,继承innerProcess(curi)的方法。目前可以成功的爬取网页。

  周日晚上开了组内交流会,汇报了本周工作,交流了一些问题,明确了下周工作计划。

存在的问题:

  需要找到合适的方法为爬取下来的网页去噪,只留需要的信息。Heritrix的整合存在问题,由于代码复杂,完全整合进工具很难。由于实验室的网络环境,Heritrix无法用代理连接英文维基百科网站。

下周计划:

  开始撰写设计说明文档,重点是子模块的设计。准备汇报页面过滤、Web对象关系抽取方法。

没有评论:

发表评论