[日志] 2009.03.19
今天很早就来到实验室,上午补充了一下需求分析,暂时算是完成了一个版本。
下午对比了几个爬虫,暂时没想好修改哪个。Heritrix太过复杂,JSpider又不容易添加新功能。我一个同学曾经使用过一个简单的开源爬虫,有时间向他请教一下。
晚上调试爬虫代码,无聊之余,记得维基百科本身也提供XML数据集供人下载,于是到下载页面Wikimedia Downloads[1]研究了一下。数据真的很多,而且还提供SQL的格式,这对我构建知识库的结构也是重要的参考。然而这也产生了另外一个问题:爬虫的效果有没有这些资料文件好呢?目前只想到这些:一、爬虫爬取页面时,可以同时做简易分析,略过很多不相关的网页;二、如果爬虫效率较低,不妨使用维基本身提供的数据集,这样一来,构建工具的爬虫模块就要取消,或者说至少不再算作重要的一环。到底怎样处理,还是要做进一步的实验。总之,先把本周的工作任务完成。
参考资料:
[1] Wikimedia Downloads. http://download.wikipedia.org/
-------------------
[日志] 2009.03.18
今天上午和下午都有面试,饱受奔波之苦不说,毕设的进度又成问题了 ...
晚上来到实验室,继续修改需求分析。
-------------------
[日志] 2009.03.17
上午去上地参加一个面试。中午回到实验室,继续研究爬虫代码。WebSPHINX似乎可以进行修改。
晚上改需求分析文档,虽然上次开会提到了一些问题,但是实际改起来还是比较有难度。
嘴馋吧?特供茅台欣赏
13 年前

没有评论:
发表评论