天水浪客的狱炎岛: 【毕设】日志-2009.03.19

2009年3月20日星期五

【毕设】日志-2009.03.19

[日志] 2009.03.19

　　今天很早就来到实验室，上午补充了一下需求分析，暂时算是完成了一个版本。

　　下午对比了几个爬虫，暂时没想好修改哪个。Heritrix太过复杂，JSpider又不容易添加新功能。我一个同学曾经使用过一个简单的开源爬虫，有时间向他请教一下。

　　晚上调试爬虫代码，无聊之余，记得维基百科本身也提供XML数据集供人下载，于是到下载页面Wikimedia Downloads[1]研究了一下。数据真的很多，而且还提供SQL的格式，这对我构建知识库的结构也是重要的参考。然而这也产生了另外一个问题：爬虫的效果有没有这些资料文件好呢？目前只想到这些：一、爬虫爬取页面时，可以同时做简易分析，略过很多不相关的网页；二、如果爬虫效率较低，不妨使用维基本身提供的数据集，这样一来，构建工具的爬虫模块就要取消，或者说至少不再算作重要的一环。到底怎样处理，还是要做进一步的实验。总之，先把本周的工作任务完成。

参考资料：
[1] Wikimedia Downloads. http://download.wikipedia.org/

-------------------
[日志] 2009.03.18

　　今天上午和下午都有面试，饱受奔波之苦不说，毕设的进度又成问题了 ...

　　晚上来到实验室，继续修改需求分析。

-------------------
[日志] 2009.03.17

　　上午去上地参加一个面试。中午回到实验室，继续研究爬虫代码。WebSPHINX似乎可以进行修改。

　　晚上改需求分析文档，虽然上次开会提到了一些问题，但是实际改起来还是比较有难度。

天水浪客的狱炎岛

2009年3月20日星期五

【毕设】日志-2009.03.19

没有评论:

发表评论

我的简介

Picasa相册

八音盒

Twitter

博客归档

标签

关注者

推荐博客列表

推荐网站列表

Google Reader的共享项目

天水浪客的狱炎岛

2009年3月20日星期五

【毕设】日志-2009.03.19

没有评论:

发表评论

我的简介

Picasa相册

八音盒

Twitter

博客归档

标签

关注者

推荐博客列表

推荐网站列表

Google Reader的共享项目

RSS订阅