2009年4月16日星期四

【毕设】周报-第8周

-----------------
[周报] 第8周进展情况

本周完成情况:

  本周前几天对中期报告文档及演示文稿进行了修改和完善。Web对象关系库方面,完善了数据库ER图。

  上午9点正式答辩,答辩过程还可以。被老师问到的都是小问题,完成文档列表有些虚张声势,不应该包含程序流程图(当时写的是完成文档及演示文稿10份,绘制图纸7份。我后来想了一下,可能是我没有弄清楚用例图、活动图和流程图的概念和区别,用例图和活动图是可以放进去的,流程图不在此列);用来处理的原始数据都包括什么内容(XML文件主要是维基百科网站的页面信息,爬虫爬取的是维基词条页面)。

  和我一起的曹同学答辩的也很顺利。相较而言,其他人的毕设完成情况不太好。后来向师兄汇报了中期答辩的相关问题。

存在的问题:

  Web对象的抽取工作尚未完成。维基百科数据量巨大,处理全部数据需要很多时间。目前只处理了一半左右的信息量,对现阶段工作来说已经足够。但是这样无法满足UDMGrid的需求,可以考虑优化抽取算法,节省处理时间。

  在抽取到基本关系的基础上,加上人工定义规则,从结构化信息中抽取出词条间的语义关系。由于基本关系比较杂,难以进行单一的判断,而是需要大数据量的统计。

下周计划:

  完成基本关系抽取,开始外部接口模块的代码编写。

没有评论:

发表评论