[日志] 2009.03.30
今天很早来到实验室,研究页面去噪方法。维基类网站大多是基于MediaWiki[1]程序规范生成页面,有固定的模式。本毕设需要的信息只存在于词条页面的正文文本中。初步爬取的网页信息中有很多都是无用信息。通过分析HTML标签,来删去无用信息,对页面去噪。

例如,侧边栏、脚注、引文、外部链接等都是可以完全删去的;表格、题头需要经过简单的判断后删去。
调研DBpedia的论文[2][3],它对维基百科中Infobox的处理比较巧妙,但是具体过程不详。完成了UDMGrid-DWGK-信息表格高级关系抽取流程图-20090330-1-jyb.vsd。

晚上8点半,实验室终于开网了,看来保密检查已结束,明天开始调研更多的论文。
参考资料:
[1] MediaWiki. http://www.mediawiki.org/
[2] S. Auer, J. Lehmann, What have Innsbruck and Leipzig in common? Extracting Semantics from Wiki Content. In Proceedings of the 4th European Semantic Web Conference (ESWC' 07), 2007.
[3] S. Auer, C. Bizer, G. Kobilarov, J. Lehmann, R. Cyganiak, Z.G. Ives. DBpedia: A Nucleus for a Web of Open Data. 2007.
-------------------
[日志] 2009.03.29
上午来到实验室,开始准备晚上组内开会用到的演示文稿PPT,学习交流-ppt-第6周工作汇报-20090329-0-jyb.ppt。之后对设计文档进行了补充。
晚上开会时,几位师兄对我毕设的进度提出了批评,因为外部接口的详细设计没有完成。后来讨论了一下找工作以及软院调剂的问题,明确下周工作计划。

没有评论:
发表评论