2009年4月13日星期一

【毕设】每周情况-第7周

本周完成情况:

  前几天对设计说明文档进行修改扩充,完成了中期报告文档的初稿。

  在对维基百科提供的XML数据集进行研究,发现很多非常有价值的东西。这样就可以把这部分数据,以及包含了类别信息的Category数据库放在一起加以利用。这样一来,要对构建工具的设计模块进行修改,把第一个模块改为页面处理模块。以维基百科XML数据集为基础,爬虫根据实现情况放到次要位置或者搁置起来。另外,对维基百科的类别信息数据库进行了初步处理,可以实现简单的子类别查询功能。

  周日晚上开组内交流会,汇报工作内容,讨论中期报告的相关问题。

存在的问题:

  在数据库的导入过程中,由于源SQL文件巨大,用命令行导入费时费力。MySQL Administrator导入速度虽然快,却存在Bug容易假死。

  编写抽取XML数据的程序,对于简单的XML处理很容易,但是处理数据量比较大、名字空间较复杂的维基XML时,总是发生错误,目前的解决方法差强人意,需要时间来调试。

下周计划:

  修改中期报告文档和PPT,调试Web对象抽取功能的代码,准备中期答辩。

没有评论:

发表评论