2009年4月6日星期一

【毕设】日志-2009.04.04

-------------------
[日志] 2009.04.04

  Wikimedia Downloads[1]是维基百科自2006年起提供的一项服务,其中的XML数据集[2]聚合了网站页面内容,数据库文件重在为词条等提供编号。



  由于加入了对XML处理的过程,要修改Web对象关系的抽取设计。

  Web对象就是Web页面的基本数据对象,在此特指维基中的词条及其基本信息。获取维基中的词条名很简单,因为页面爬取得到的网页文件名或XML文件中的标题名即是维基词条名。为了增加知识库的完整性,也要有描述该词条的概述内容,这同样可以从分析关键标签的方法入手。下图是Beihang University词条页面,词条名与目录之间的部分就是概述。



  对于HTML页面来说,词条名保存在wgTitle中,而概述一般处于词条名与Contents之间,将这部分信息单独抽出即完成了对Web对象的抽取。对于XML文件来说,词条名在文件的title标签信息中,概述一般存在abstract标签信息中。



  为了满足项目的需求,还需要将英文词条与中文词条相对应。这里需要抽取XML数据集中的信息。每个词条的正文都以text标签开始,查找[[zh:XX]]项,就可以获取相对应的中文名。

相关资料:
[1] Wikimedia Downloads. http://download.wikipedia.org/
[2] L. Denoyer. The Wikipedia XML Corpus. SIGIR Forum, 2006.

没有评论:

发表评论