天水浪客的狱炎岛: 【毕设】日志-2009.04.13

2009年4月17日星期五

【毕设】日志-2009.04.13

-------------------
[日志] 2009.04.13

　　上午整理文档。下午重写了Web对象抽取的代码。解决了text子节点内容抽取时空指针异常（java.lang.NullPointerException）的问题，因为维基的XML名字空间复杂，只有获取正确的名字空间才能抽取到标签的内容。

　　确认了数据库categorylinks表中cl_from项编号含义，的确是cl_sortkey（子类、子实体）的id号，而且此编号也确实不是唯一的。这是因为我之前错把cl_from看作了主键，仔细看categorylinks的SQL建表语句，里面只是限定了一种约束：UNIQUE KEY `cl_from` (`cl_from`,`cl_to`)，并没有提到PRIMARY KEY。例如，在中文的类别信息中，查到跟“天安门广场”有关的数据如下：(4118,'世界之最','天安门广场',20071031041840),(4118,'北京','天安门广场',20071031041840),(4118,'广场','天安门广场',20071031041840)，4118就是“天安门广场”词条的唯一id号，与XML中的标签一致。

遇到的问题：

　　目前实验采用的是数据较少的Kinyarwanda（卢旺达语）版（如下图），但是在处理英文维基时，会发生错误，可能是数据量太大超过了某些变量原有的空间限制。

　　试着将一些中文数据导入数据库，但是显示的时候成了乱码。数据库配置文件my.ini中的default-character-set改为gbk和utf8都不行，不知如何解决。

下一步计划：

　　明天上午要参加一个笔试。争取完成将抽取到的信息存进数据库的功能；另外，再试试可否解决英文XML处理的报错问题。与曹俊超同学一起学习可视化工具获取数据的方法，并着手编写相关代码。

天水浪客的狱炎岛

2009年4月17日星期五

【毕设】日志-2009.04.13

没有评论:

发表评论

我的简介

Picasa相册

八音盒

Twitter

博客归档

标签

关注者

推荐博客列表

推荐网站列表

Google Reader的共享项目

天水浪客的狱炎岛

2009年4月17日星期五

【毕设】日志-2009.04.13

没有评论:

发表评论

我的简介

Picasa相册

八音盒

Twitter

博客归档

标签

关注者

推荐博客列表

推荐网站列表

Google Reader的共享项目

RSS订阅