-------------------
[日志] 2009.04.25
中午来到实验室,中文实体表已经抽取完毕。
修改了部分代码,开始从英文Abstract.xml抽取英文实体。为了方便后续工作的进行,打算把实体表分为三部分:实体编号表、中文摘要表、英文摘要表。因为英文词条页面的描述信息太杂,没有必要全部存到数据库中,只需要在基本关系抽取过程中进行分析。
遇到的问题:
最近比较郁闷,似乎没心情作毕设。还好现阶段主要在运行已写好的代码,利用这段时间好好调整。
下一步计划:
等待实体表全部抽取完,开始大规模抽取基本关系。
-------------------
[日志] 2009.04.24
上午有个面试,下午2点多才回来。代码方面进展还算顺利,正在大规模的抽取中文Abstract.xml存进wikikb.entityzh,争取今晚抽完中文实体,明天完成英文实体表。
晚上与同组同学讨论了接口功能,以及GraphML所需的数据结构。由于Graph算法的输入是标准的树形结构,具体需要如何处理还要继续讨论。
实验室其他组正在学习面向对象建模方法,我也顺便学习了用例图、活动图、状态图等画法,写论文时会用到。
遇到的问题:
基本关系抽取必须要等英文实体表完成才能开始。目前仅针对测试数据(卢旺达语),正文中的基本关系较少。
下一步计划:
完成Web对象的抽取,开始测试基本关系抽取的代码。
嘴馋吧?特供茅台欣赏
13 年前

此评论已被博客管理员删除。
回复删除此评论已被博客管理员删除。
回复删除此评论已被博客管理员删除。
回复删除上面三层楼的回复,我已经删了,无非是些偏激的骂GOV的文章。
回复删除