-------------------
[日志] 2009.04.04
Wikimedia Downloads[1]是维基百科自2006年起提供的一项服务,其中的XML数据集[2]聚合了网站页面内容,数据库文件重在为词条等提供编号。

由于加入了对XML处理的过程,要修改Web对象关系的抽取设计。
Web对象就是Web页面的基本数据对象,在此特指维基中的词条及其基本信息。获取维基中的词条名很简单,因为页面爬取得到的网页文件名或XML文件中的标题名即是维基词条名。为了增加知识库的完整性,也要有描述该词条的概述内容,这同样可以从分析关键标签的方法入手。下图是Beihang University词条页面,词条名与目录之间的部分就是概述。

对于HTML页面来说,词条名保存在wgTitle中,而概述一般处于词条名与Contents之间,将这部分信息单独抽出即完成了对Web对象的抽取。对于XML文件来说,词条名在文件的title标签信息中,概述一般存在abstract标签信息中。
[日志] 2009.04.04
Wikimedia Downloads[1]是维基百科自2006年起提供的一项服务,其中的XML数据集[2]聚合了网站页面内容,数据库文件重在为词条等提供编号。

由于加入了对XML处理的过程,要修改Web对象关系的抽取设计。
Web对象就是Web页面的基本数据对象,在此特指维基中的词条及其基本信息。获取维基中的词条名很简单,因为页面爬取得到的网页文件名或XML文件中的标题名即是维基词条名。为了增加知识库的完整性,也要有描述该词条的概述内容,这同样可以从分析关键标签的方法入手。下图是Beihang University词条页面,词条名与目录之间的部分就是概述。

对于HTML页面来说,词条名保存在wgTitle中,而概述一般处于词条名与Contents之间,将这部分信息单独抽出即完成了对Web对象的抽取。对于XML文件来说,词条名在文件的title标签信息中,概述一般存在abstract标签信息中。


没有评论:
发表评论