[日志] 2009.05.04
上午来到实验室,查看实体基本关系抽取测试情况:运行30小时,处理74万实体,590万基本关系。整理一周以来的工作,制作工作汇报PPT。


晚上开会,在交流过程中暴露出很多问题,如对类别关联关系的处理方法理解有误、接口高级功能的定位等。
下一步计划:
重写类别关系建立代码。
-------------------
[日志] 2009.05.02
中午来到实验室,发现程序在处理英文XML时仍然有些小问题,于是在实体关系表中加入编号作为主键,解决了问题。运行程序半个小时,处理2千实体,抽取到4万条基本关系。效率还是很低的。
同组同学的Graph重新做了设计,修改了获取数据的方法。因此,我的接口仅有两条关系还不够,目前想到的方法是用三层ArrayList构成三维数组。
下一步计划:
继续写接口功能。
-------------------
[日志] 2009.05.01
中午来到实验室,人果然很少。准备用英文维基的pages-articles.xml测试基本关系抽取。enwiki-20090306-pages-articles.xml.bz2压缩包就有4.8GB,解压之前先清理了一下硬盘,花了一个半小时解压完毕,得到的整个文件竟然达到21.2GB。虽然这段时间总是处理大数据,但这样的级别还是让我吃了一惊。加上正则表达式的低效率问题,最终处理起来肯定费时费力。
解压等待的过程中,又随手调试了昨天的代码,改进了准确度。之前对java.util.regex包中Matcher类的groupCount理解不深,误认为是匹配次数,其实是捕获组数。
晚上在寝室电脑的Ubuntu系统测试代码。
遇到的问题:
服务器的MySQL仍然无法启用。目前的代码需要频繁executeUpdate数据库,效率肯定很低,不知数据库的批量插入如何实现。
下一步计划:
明天中午有事,下午再去实验室,主要完成接口的两步关系查询代码。
相关资料:
[1] JAVA文档-软件包java.util.regex. http://gceclub.sun.com.cn/Java_Docs/html/zh_CN/api/java/util/regex/package-summary.html

没有评论:
发表评论