-------------------
[日志] 2009.04.17
下午与马师兄讨论了当前的一些问题。昨天抽取中文abstract-zh-cn.xml时,程序报错说没有anchor标签没有结尾:[Fatal Error] org.xml.sax.SAXParseException: 2053:210: The element type "anchor" must be terminated by the matching end-tag "/anchor".。今天在师兄的帮助下,初步判定不是XML的问题,也许与汉字编码有关。另外,我用容器来处理每个子节点内容的方法也被师兄认为是不必要的,甚至会造成程序的崩溃。究其原因,是我对SAX的理解不够深入。
为了把数据库导入到服务器上,大三的学弟把服务器机箱从学校机房搬到实验室。按照周师兄的要求,需要为其重装RedHat Enterprise Linux系统。但是服务器的Ubuntu 8.10系统出了点问题,开机只能启动命令行界面,用startx命令也无法进入图形化界面,这样一来就很难在重装之前导出数据来备份。后来借助Ubuntu的LiveCD进入系统,成功的导出了文件。从网上下载了RHEL5.3 [1],以及FTP上的4.6,都刻了盘待用。
晚上改写了数据库插入的代码,减少了数据库连接次数,运行速度提高了很多。
遇到的问题:
如果在SAX解析器中加入Web对象基本关系抽取的代码,不知效率会不会很慢。
下一步计划:
完善数据库格式设计,包括关系实例表的设计、解决实体与类别表的冲突等。
相关资料:
[1] Redhat Enterprise Linux V5 UPDATE 3下载地址:http://ftp.wallawalla.edu/pub/isos/ISOS/redhat/rhel/5.3/rhel-server-5.3-i386-dvd.iso 注册码2515dd4e215225dd仅限安装,无法更新。
-------------------
[日志] 2009.04.16
中午来到实验室,继续写SAX处理XML的代码。下午实现了对abstract.xml中title、url、abstract,pages-articles.xml中title、id、text标签内容的抽取。晚上对代码进行修改,可以将抽取到的字符串存入数据库相应的表项。另外,马师兄回复我昨天的邮件时提到,“把mysql的程序目录连其数据及其copy下来,将来恢复时简单的在文件系统里覆盖源文件就可以,就不用再导入数据”。作了一下实验,是可行的,但初次的数据时必须导入完全。
遇到的问题:
维基提供的XML太过巨大,因此频频遇到新问题,而在测试时都不曾见到(测试采用Kinyarwanda卢旺达语版)。
比如在处理zhwiki-20090116-abstract-zh-cn.xml时,竟然会出现[Fatal Error] :10:199: The element type "anchor" must be terminated by the matching end-tag "/anchor". 是说这个XML里有一处anchor标签没有结束项,而用另一种逐行解析的代码就没有问题。另外,在把抽取结果存储进数据库的时候,也会出现一些小错误,是由于卢旺达语比较怪异的字符引起的。java.sql.SQLException: Incorrect string value: '\xE8\x8C\x85 na...' for column 'ent_abs' at row 1. 英语应该不会出现这种问题。
下一步计划:
这周进度有些慢了,被一些小问题纠缠。明天开始Web对象简单关系抽取,设计新的数据库表项,包括上次开会提到的关系描述表、关系实例表。
嘴馋吧?特供茅台欣赏
14 年前

没有评论:
发表评论