[日志] 2009.04.07
上午修改中期报告文档,上传到FTP中,下午去参加了一个笔试。
对于数据库存储格式,暂时这样设计:

-------------------
[日志] 2009.04.06
今天主要在忙着写党员思想汇报和读书笔记,完成了中期报告PPT的初稿。
其中,对Web对象的抽取结果如下:

对Web对象间层次关系的抽取结果如下:

-------------------
[日志] 2009.04.05
下午得到通知,要完成毕设手册期中小结及以前的所有内容。此外,准备了晚上开组内交流会的PPT。
晚上开会,师兄通知了中期答辩的具体日期,是第8周周五,即4月10日。看来之前延期的美梦破灭了。经过与师兄们讨论,爬虫部分可以避免被砍掉。对于针对维基的关系库构建工具,要有一套相对完整的解决方案。维基百科提供XML数据集,但是其它的维基类网站未必提供,因此爬虫模块还是必要的。我已经设计并实现了针对维基类网站的页面爬取以及Web对象抽取的过程,可以保留下来。
因此工具的子模块改为页面处理模块,包括对XML处理和页面爬取两部分功能。

开完会,由师兄领着去找陈老师给毕设手册签字。老师提醒我们注意开题时曾被提问过的问题。

没有评论:
发表评论