2009年4月3日星期五

【毕设】日志-2009.03.31-04.03

-------------------
[日志] 2009.04.03

  导入enwiki-20090306-categorylinks.sql的工作仍未完成,MySQL Administrator导入速度虽然快,却存在Bug容易假死,所以仍然要用命令行来导入。

  下午参加了中关村软件孵化协会的招聘会,海投简历。晚上开始写抽取XML数据的程序,对于简单的XML处理很容易,但是处理数据量比较大的维基XML时,总是发生错误,暂时没有调试好。

-------------------
[日志] 2009.04.02

  昨晚下载了一些维基百科提供的XML数据集,以及一些与类别相关的SQL文件。由于数据量巨大,导入MySQL数据库要耗费很长时间。

  目前将研究重点放在XML的处理上。

-------------------
[日志] 2009.04.01

  下午抽时间写了一个中期报告的初稿。晚上与师兄讨论知识库格式。讨论的结果是,我不得不把研究多时的爬虫模块整个砍掉,这对于我的近期工作和中期汇报是一个致命的打击。

  这不是愚人节的玩笑。

  我必须在中期之前把知识库的雏形建好,并且抽取出简单关系。

-------------------
[日志] 2009.03.31

  今天在实验室修改设计文档。扩充了子模块设计部分,上交了文档UDMGrid-DOC4-设计说明文档-20090331-1-jyb.doc。

没有评论:

发表评论