天水浪客的狱炎岛: 【毕设】日志-2009.04.24-25

2009年4月27日星期一

【毕设】日志-2009.04.24-25

-------------------
[日志] 2009.04.25

　　中午来到实验室，中文实体表已经抽取完毕。

　　修改了部分代码，开始从英文Abstract.xml抽取英文实体。为了方便后续工作的进行，打算把实体表分为三部分：实体编号表、中文摘要表、英文摘要表。因为英文词条页面的描述信息太杂，没有必要全部存到数据库中，只需要在基本关系抽取过程中进行分析。

遇到的问题：

　　最近比较郁闷，似乎没心情作毕设。还好现阶段主要在运行已写好的代码，利用这段时间好好调整。

下一步计划：

　　等待实体表全部抽取完，开始大规模抽取基本关系。

-------------------
[日志] 2009.04.24

　　上午有个面试，下午2点多才回来。代码方面进展还算顺利，正在大规模的抽取中文Abstract.xml存进wikikb.entityzh，争取今晚抽完中文实体，明天完成英文实体表。

　　晚上与同组同学讨论了接口功能，以及GraphML所需的数据结构。由于Graph算法的输入是标准的树形结构，具体需要如何处理还要继续讨论。

　　实验室其他组正在学习面向对象建模方法，我也顺便学习了用例图、活动图、状态图等画法，写论文时会用到。

遇到的问题：

　　基本关系抽取必须要等英文实体表完成才能开始。目前仅针对测试数据（卢旺达语），正文中的基本关系较少。

下一步计划：

　　完成Web对象的抽取，开始测试基本关系抽取的代码。

4 条评论:

匿名2009年4月27日 15:29
此评论已被博客管理员删除。
回复删除
回复
匿名2009年4月27日 15:30
此评论已被博客管理员删除。
回复删除
回复
匿名2009年4月27日 15:30
此评论已被博客管理员删除。
回复删除
回复
天水浪客2009年4月30日 11:38
上面三层楼的回复，我已经删了，无非是些偏激的骂GOV的文章。
回复删除
回复

添加评论

天水浪客的狱炎岛

2009年4月27日星期一

【毕设】日志-2009.04.24-25

4 条评论:

我的简介

Picasa相册

八音盒

Twitter

博客归档

标签

关注者

推荐博客列表

推荐网站列表

Google Reader的共享项目

天水浪客的狱炎岛

2009年4月27日星期一

【毕设】日志-2009.04.24-25

4 条评论:

我的简介

Picasa相册

八音盒

Twitter

博客归档

标签

关注者

推荐博客列表

推荐网站列表

Google Reader的共享项目

RSS订阅