本周完成情况:
本周完成了设计说明文档的初稿。设计方案中的处理流程,主要包含以下几个部分:改造Heritrix,对维基百科网站页面进行爬取及更新爬取;对页面链接进行过滤,对页面无用信息进行去噪;分析并抽取Web对象及其基本关系;抽取Web对象间的高级关系;将结果构建为知识库;用户根据工具提供的二次开发接口来进行进一步的开发。构建工具的4个子模块中,重点完成页面爬取模块和关系抽取模块的详细设计。
周日晚上开组内交流会,讨论了设计文档的不足,以及关系抽取方面忽略的重要内容。由于进度较慢,被师兄们批评。
存在的问题:
本周由于找工作耽误了一些时间,毕设的进度缓慢,任务完成程度差强人意。后半周实验室断网,令我在关键技术补充调研方面遇到了困难,很难查阅论文,必须等到网络恢复才能继续调研工作。外部接口的详细设计没有完成,由于涉及到知识库的具体存储格式,暂时没法写。
下周计划:
修改设计说明文档,与师兄探讨确定知识库格式,实现页面过滤,研究关系抽取方法,准备中期答辩。
嘴馋吧?特供茅台欣赏
13 年前

没有评论:
发表评论