天水浪客的狱炎岛: 【毕设】日志-2009.04.04

2009年4月6日星期一

【毕设】日志-2009.04.04

-------------------
[日志] 2009.04.04

　　Wikimedia Downloads[1]是维基百科自2006年起提供的一项服务，其中的XML数据集[2]聚合了网站页面内容，数据库文件重在为词条等提供编号。

　　由于加入了对XML处理的过程，要修改Web对象关系的抽取设计。

　　Web对象就是Web页面的基本数据对象，在此特指维基中的词条及其基本信息。获取维基中的词条名很简单，因为页面爬取得到的网页文件名或XML文件中的标题名即是维基词条名。为了增加知识库的完整性，也要有描述该词条的概述内容，这同样可以从分析关键标签的方法入手。下图是Beihang University词条页面，词条名与目录之间的部分就是概述。

　　对于HTML页面来说，词条名保存在wgTitle中，而概述一般处于词条名与Contents之间，将这部分信息单独抽出即完成了对Web对象的抽取。对于XML文件来说，词条名在文件的title标签信息中，概述一般存在abstract标签信息中。

　　为了满足项目的需求，还需要将英文词条与中文词条相对应。这里需要抽取XML数据集中的信息。每个词条的正文都以text标签开始，查找[[zh:XX]]项，就可以获取相对应的中文名。

相关资料：
[1] Wikimedia Downloads. http://download.wikipedia.org/
[2] L. Denoyer. The Wikipedia XML Corpus. SIGIR Forum, 2006.

天水浪客的狱炎岛

2009年4月6日星期一

【毕设】日志-2009.04.04

没有评论:

发表评论

我的简介

Picasa相册

八音盒

Twitter

博客归档

标签

关注者

推荐博客列表

推荐网站列表

Google Reader的共享项目

天水浪客的狱炎岛

2009年4月6日星期一

【毕设】日志-2009.04.04

没有评论:

发表评论

我的简介

Picasa相册

八音盒

Twitter

博客归档

标签

关注者

推荐博客列表

推荐网站列表

Google Reader的共享项目

RSS订阅