-------------------
[日志] 2009.04.03
导入enwiki-20090306-categorylinks.sql的工作仍未完成,MySQL Administrator导入速度虽然快,却存在Bug容易假死,所以仍然要用命令行来导入。
下午参加了中关村软件孵化协会的招聘会,海投简历。晚上开始写抽取XML数据的程序,对于简单的XML处理很容易,但是处理数据量比较大的维基XML时,总是发生错误,暂时没有调试好。
-------------------
[日志] 2009.04.02
昨晚下载了一些维基百科提供的XML数据集,以及一些与类别相关的SQL文件。由于数据量巨大,导入MySQL数据库要耗费很长时间。
目前将研究重点放在XML的处理上。
-------------------
[日志] 2009.04.01
下午抽时间写了一个中期报告的初稿。晚上与师兄讨论知识库格式。讨论的结果是,我不得不把研究多时的爬虫模块整个砍掉,这对于我的近期工作和中期汇报是一个致命的打击。
这不是愚人节的玩笑。
我必须在中期之前把知识库的雏形建好,并且抽取出简单关系。
-------------------
[日志] 2009.03.31
今天在实验室修改设计文档。扩充了子模块设计部分,上交了文档UDMGrid-DOC4-设计说明文档-20090331-1-jyb.doc。
嘴馋吧?特供茅台欣赏
13 年前

没有评论:
发表评论