天水浪客的狱炎岛: 【毕设】日志-2009.05.07-09

-------------------
[日志] 2009.05.09

　　中午来到实验室，由于数据库索引没有建好，很难处理大规模的类别关系。这段时间写程序还是比较郁闷的。

　　下午写了一个关于实体基本关系的计数程序，想看看全部数据库到底能有多大。本以为会需要很长时间来处理，但即便有循环式的正则表达式判断，计数器的执行效率仍然很高。大概运行了两个小时就把Abstract.xml和Pages-Articles.xml跑了一遍。结果是惊人的：实体数有825万条，其中应该有很多都是无意义实体，因为Abstract中只有260万条；按照目前的实体关联关系建立方法，总的实体关系达到8300万个以上。单一实体的关系数统计结果如下（rel10+ num表示某实体与10-30个其他实体有关系，以此类推）：rel10+ num = 1225642，rel30+ num = 299359，rel50+ num = 197980，rel100+ num = 77193，rel200+ num = 23194，rel300+ num = 15059，rel500+ num = 4417，rel800+ num = 2888。有的实体页面竟然有超过800其他实体链接，也许这种文章是超长类型的。

遇到的问题：

　　数据库索引建立要耗费很多时间，目前只能基于小数据库来展开测试，接口功能暂时无从下手。

下一步计划：

　　整理一周工作，准备开会PPT。

-------------------
[日志] 2009.05.08

　　主要在准备思想道德评价答辩。

-------------------
[日志] 2009.05.07

　　上午来到实验室，把之前写的代码重新整理了一遍。理清了关系权值的计算方法，目前实体的直接父类关系权值可以自动累加。

　　下午在测试服务器代码时偶然发现，虽然早就安装了jre1.6，但运行程序时默认使用是1.5。这就是代码总在一段时间后自动停止的原因：或许旧版jre对SAX解析方法有数量限制。更改版本之后，错误消除。测试了一下英文实体摘要抽取速度，处理10万条大概需要6小时，太慢了。目前想到的方法是，改写MySQL插入方式为批量插入，即分析时先存进ArrayList，待积满100条后执行批量插入的SQL语句。想起来似乎很简单，还没写代码。

　　晚上与师兄讨论了当前存在的一些问题。

遇到的问题：

　　CategoryLinks表的子类名cl_sortkey索引没建完，估计要比导入的时间还长。

下一步计划：

　　明晚7点是小班思想道德答辩，需要准备PPT。

天水浪客的狱炎岛

2009年5月13日星期三

【毕设】日志-2009.05.07-09

没有评论:

发表评论

我的简介

Picasa相册

八音盒

Twitter

博客归档

标签

关注者

推荐博客列表

推荐网站列表

Google Reader的共享项目