2009年5月4日星期一

【毕设】日志-2009.04.29-30

-------------------
[日志] 2009.04.30

  中午来到实验室,主要还是解决正则表达式的问题。text标签的内容是词条正文描述,里面除了有实体的链接外,还有一些无关链接,如类别链接[[Category:Iyobokamana]],语言链接[[yo:Europe]],文件链接[[Image:Europe_satellite_globe.jpgthumbright300pxUburayi]]等,在存进ent_text之前,最好将这些内容删去。目前用StringBuffer来避免逐行解析时漏掉某些链接的问题,或许会牺牲效率。

  在匹配正则表达式时,采用的Matcher.appendReplacement(StringBuffer, String)方法似乎存在问题,输出的时候多打了一遍。后来仔细核对文档,发现必须用两个StringBuffer才行。基本关系抽取的代码到此也差不多了,只是没有用英文维基XML测试。原本这种处理是比较复杂的,但修改数据库后变得简单一些:把删除了无关链接的正文文存进entity表的ent_text项;同时通过ent_id和ent_title来更新relationent表的re_from、re_sortkey,将正文中的其他实体名存进re_to项。暂时通过实体名,而不是编号来查询数据信息,回避当前实体表不全的缺点。



遇到的问题:

  服务器的MySQL服务仍然无法启用。

下一步计划:

  劳动节继续劳动 ... 写高级接口功能。


-------------------
[日志] 2009.04.29

  中午来到实验室,发现服务器的MySQL服务无法启用。昨天是可以用的,但是大三学弟昨晚调试PHP的时候重启了服务器,之后就无法启用了。花了两个小时,没有解决这个问题。几天前曾为了连接服务器修改过一些文件夹的权限,可能改乱了。下午与学弟一起,把服务器搬回了机房,用PuTTY测试连接,暂时没有问题。

  晚上与同学讨论了一些毕设的进展问题。把UDMGrid-DOC0-数据库设计说明-20090429-0-jyb.doc上传到了FTP的设计文档目录中。

遇到的问题:

  修改关系抽取代码时,正则表达式抽取到的信息并不准确,原因可能与SAX的抽取方式有关。SAX是逐行解析,会将段落中的每行割裂开,这样会漏掉一些实体的链接。本想用StringBuffer来解决,但是效果不好。

下一步计划:

  尽快解决问题,然后写接口高级功能。

没有评论:

发表评论