2009年4月17日星期五

【毕设】日志-2009.04.13

-------------------
[日志] 2009.04.13

  上午整理文档。下午重写了Web对象抽取的代码。解决了text子节点内容抽取时空指针异常(java.lang.NullPointerException)的问题,因为维基的XML名字空间复杂,只有获取正确的名字空间才能抽取到标签的内容。

  确认了数据库categorylinks表中cl_from项编号含义,的确是cl_sortkey(子类、子实体)的id号,而且此编号也确实不是唯一的。这是因为我之前错把cl_from看作了主键,仔细看categorylinks的SQL建表语句,里面只是限定了一种约束:UNIQUE KEY `cl_from` (`cl_from`,`cl_to`),并没有提到PRIMARY KEY。例如,在中文的类别信息中,查到跟“天安门广场”有关的数据如下:(4118,'世界之最','天安门广场',20071031041840),(4118,'北京','天安门广场',20071031041840),(4118,'广场','天安门广场',20071031041840),4118就是“天安门广场”词条的唯一id号,与XML中的标签一致。

遇到的问题:

  目前实验采用的是数据较少的Kinyarwanda(卢旺达语)版(如下图),但是在处理英文维基时,会发生错误,可能是数据量太大超过了某些变量原有的空间限制。



  试着将一些中文数据导入数据库,但是显示的时候成了乱码。数据库配置文件my.ini中的default-character-set改为gbk和utf8都不行,不知如何解决。

下一步计划:

  明天上午要参加一个笔试。争取完成将抽取到的信息存进数据库的功能;另外,再试试可否解决英文XML处理的报错问题。与曹俊超同学一起学习可视化工具获取数据的方法,并着手编写相关代码。

没有评论:

发表评论