2009年4月27日星期一

【毕设】日志-2009.04.24-25

-------------------
[日志] 2009.04.25

  中午来到实验室,中文实体表已经抽取完毕。

  修改了部分代码,开始从英文Abstract.xml抽取英文实体。为了方便后续工作的进行,打算把实体表分为三部分:实体编号表、中文摘要表、英文摘要表。因为英文词条页面的描述信息太杂,没有必要全部存到数据库中,只需要在基本关系抽取过程中进行分析。

遇到的问题:

  最近比较郁闷,似乎没心情作毕设。还好现阶段主要在运行已写好的代码,利用这段时间好好调整。

下一步计划:

  等待实体表全部抽取完,开始大规模抽取基本关系。


-------------------
[日志] 2009.04.24

  上午有个面试,下午2点多才回来。代码方面进展还算顺利,正在大规模的抽取中文Abstract.xml存进wikikb.entityzh,争取今晚抽完中文实体,明天完成英文实体表。

  晚上与同组同学讨论了接口功能,以及GraphML所需的数据结构。由于Graph算法的输入是标准的树形结构,具体需要如何处理还要继续讨论。

  实验室其他组正在学习面向对象建模方法,我也顺便学习了用例图、活动图、状态图等画法,写论文时会用到。

遇到的问题:

  基本关系抽取必须要等英文实体表完成才能开始。目前仅针对测试数据(卢旺达语),正文中的基本关系较少。

下一步计划:

  完成Web对象的抽取,开始测试基本关系抽取的代码。

4 条评论:

  1. 此评论已被博客管理员删除。

    回复删除
  2. 此评论已被博客管理员删除。

    回复删除
  3. 此评论已被博客管理员删除。

    回复删除
  4. 上面三层楼的回复,我已经删了,无非是些偏激的骂GOV的文章。

    回复删除