-------------------
[日志] 2009.05.09
中午来到实验室,由于数据库索引没有建好,很难处理大规模的类别关系。这段时间写程序还是比较郁闷的。
下午写了一个关于实体基本关系的计数程序,想看看全部数据库到底能有多大。本以为会需要很长时间来处理,但即便有循环式的正则表达式判断,计数器的执行效率仍然很高。大概运行了两个小时就把Abstract.xml和Pages-Articles.xml跑了一遍。结果是惊人的:实体数有825万条,其中应该有很多都是无意义实体,因为Abstract中只有260万条;按照目前的实体关联关系建立方法,总的实体关系达到8300万个以上。单一实体的关系数统计结果如下(rel10+ num表示某实体与10-30个其他实体有关系,以此类推):rel10+ num = 1225642,rel30+ num = 299359,rel50+ num = 197980,rel100+ num = 77193,rel200+ num = 23194,rel300+ num = 15059,rel500+ num = 4417,rel800+ num = 2888。有的实体页面竟然有超过800其他实体链接,也许这种文章是超长类型的。
遇到的问题:
数据库索引建立要耗费很多时间,目前只能基于小数据库来展开测试,接口功能暂时无从下手。
下一步计划:
整理一周工作,准备开会PPT。
-------------------
[日志] 2009.05.08
主要在准备思想道德评价答辩。
-------------------
[日志] 2009.05.07
上午来到实验室,把之前写的代码重新整理了一遍。理清了关系权值的计算方法,目前实体的直接父类关系权值可以自动累加。
下午在测试服务器代码时偶然发现,虽然早就安装了jre1.6,但运行程序时默认使用是1.5。这就是代码总在一段时间后自动停止的原因:或许旧版jre对SAX解析方法有数量限制。更改版本之后,错误消除。测试了一下英文实体摘要抽取速度,处理10万条大概需要6小时,太慢了。目前想到的方法是,改写MySQL插入方式为批量插入,即分析时先存进ArrayList,待积满100条后执行批量插入的SQL语句。想起来似乎很简单,还没写代码。
晚上与师兄讨论了当前存在的一些问题。
遇到的问题:
CategoryLinks表的子类名cl_sortkey索引没建完,估计要比导入的时间还长。
下一步计划:
明晚7点是小班思想道德答辩,需要准备PPT。
嘴馋吧?特供茅台欣赏
13 年前

没有评论:
发表评论