天水浪客的狱炎岛: 【毕设】日志-2009.05.01-04

-------------------
[日志] 2009.05.04

　　上午来到实验室，查看实体基本关系抽取测试情况：运行30小时，处理74万实体，590万基本关系。整理一周以来的工作，制作工作汇报PPT。

　　晚上开会，在交流过程中暴露出很多问题，如对类别关联关系的处理方法理解有误、接口高级功能的定位等。

下一步计划：

　　重写类别关系建立代码。

-------------------
[日志] 2009.05.02

　　中午来到实验室，发现程序在处理英文XML时仍然有些小问题，于是在实体关系表中加入编号作为主键，解决了问题。运行程序半个小时，处理2千实体，抽取到4万条基本关系。效率还是很低的。

　　同组同学的Graph重新做了设计，修改了获取数据的方法。因此，我的接口仅有两条关系还不够，目前想到的方法是用三层ArrayList构成三维数组。

下一步计划：

　　继续写接口功能。

-------------------
[日志] 2009.05.01

　　中午来到实验室，人果然很少。准备用英文维基的pages-articles.xml测试基本关系抽取。enwiki-20090306-pages-articles.xml.bz2压缩包就有4.8GB，解压之前先清理了一下硬盘，花了一个半小时解压完毕，得到的整个文件竟然达到21.2GB。虽然这段时间总是处理大数据，但这样的级别还是让我吃了一惊。加上正则表达式的低效率问题，最终处理起来肯定费时费力。

　　解压等待的过程中，又随手调试了昨天的代码，改进了准确度。之前对java.util.regex包中Matcher类的groupCount理解不深，误认为是匹配次数，其实是捕获组数。

晚上在寝室电脑的Ubuntu系统测试代码。

遇到的问题：

　　服务器的MySQL仍然无法启用。目前的代码需要频繁executeUpdate数据库，效率肯定很低，不知数据库的批量插入如何实现。

下一步计划：

　　明天中午有事，下午再去实验室，主要完成接口的两步关系查询代码。

相关资料：
[1] JAVA文档-软件包java.util.regex. http://gceclub.sun.com.cn/Java_Docs/html/zh_CN/api/java/util/regex/package-summary.html

天水浪客的狱炎岛

2009年5月7日星期四

【毕设】日志-2009.05.01-04

没有评论:

发表评论

我的简介

Picasa相册

八音盒

Twitter

博客归档

标签

关注者

推荐博客列表

推荐网站列表

Google Reader的共享项目