本周完成情况:
前半周时间重写了SAX解析XML的程序代码,绕过了SAXParseException异常问题。实验室的服务器Redhat Enterprise Linux 5.3系统不如想象中好用,重装为Ubuntu 8.10,并安装了MySQL等软件,开始导入层次关系数据库。与毕设同组的同学讨论了接口的高级功能。
维基百科网站真正的类别根节点是Contents(页面分类),它的子节点包括Articles、Categories、Timelines、Lists、Portals等。Portals(主题首页)并不如原来所想的那么重要。而Articles是英文维基的第二层最重要的节点,所有的词条页面都在它下面。
每周例会上汇报了工作。与师兄们交流后,明确了下一步工作内容。关于类别关系权值的设定,我之前理解错了,需要重新设计。
存在的问题:
用SAX解析XML虽然占内存很少,但是解析速度并不快。维基的数据量巨大,想要全部解析完毕几乎不可能。目前想到的方法是把代码导入服务器,由服务器慢慢处理。
对高级关系抽取的判定方法理解不深,还需要与师兄们再讨论。
下周计划:
继续基本关系抽取,完成外部接口的高级功能。设计实体间高级关系的判别方法。
嘴馋吧?特供茅台欣赏
13 年前

没有评论:
发表评论