天水浪客的狱炎岛: 【毕设】每周情况-第5周

2009年3月24日星期二

【毕设】每周情况-第5周

本周完成情况：

　　本周按师兄的要求修改需求规格说明文档，初步完成了工具的页面爬取模块。

　　在研究开源爬虫时，调试过很多代码。如Nutch、JSpider、WebSPHINX等，由于不合适都放弃了，而Arachnid、WebLech虽然代码简单，但是很难扩展复杂的功能，所以也不能用于项目。最后选用的是Heritrix。它是一个爬虫框架，始于2003年初，目前仍在更新。版本号是1.14.3。它的优点主要是主题爬虫（集中于被选择的问题）、持续爬虫（更新网页的爬取）、可扩展（组件可更换）；但也有缺点，如Windows环境下配置复杂、资源占用多等。由于维基百科网站的词条页面都很有规律，所以可以定制正则表达式来抓取相应URL：http://en.wikipedia.org/wiki/[\\d]。写一个继承自Extractor的新类，继承innerProcess(curi)的方法。目前可以成功的爬取网页。

　　周日晚上开了组内交流会，汇报了本周工作，交流了一些问题，明确了下周工作计划。

存在的问题：

　　需要找到合适的方法为爬取下来的网页去噪，只留需要的信息。Heritrix的整合存在问题，由于代码复杂，完全整合进工具很难。由于实验室的网络环境，Heritrix无法用代理连接英文维基百科网站。

下周计划：

　　开始撰写设计说明文档，重点是子模块的设计。准备汇报页面过滤、Web对象关系抽取方法。

天水浪客的狱炎岛

2009年3月24日星期二

【毕设】每周情况-第5周

没有评论:

发表评论

我的简介

Picasa相册

八音盒

Twitter

博客归档

标签

关注者

推荐博客列表

推荐网站列表

Google Reader的共享项目

天水浪客的狱炎岛

2009年3月24日星期二

【毕设】每周情况-第5周

没有评论:

发表评论

我的简介

Picasa相册

八音盒

Twitter

博客归档

标签

关注者

推荐博客列表

推荐网站列表

Google Reader的共享项目

RSS订阅