天水浪客的狱炎岛: 2009

2009年10月7日星期三

2009年7月19日星期日

现在流行各种“门” ...

　　近一个月以来，各大论坛、QQ群争相爆料各种“门”，详情可以去Google等搜索。这些门并不算神奇，也没什么独特之处。但经过各种网友的无限拔高后，你不去随声附和，好像反而显得落后于时代。

　　随着网络的发展，中国文化强大的包容性显现无疑。例如，源于日本的“史上最X”系列用词，经过动漫爱好者传入国内。可是现如今，连街头的卖菜大妈都被称为“史上最牛XXX”。这么用，只会让人觉得中国历史似乎没什么东西，万卷史书里竟找不出比卖菜大妈还牛的事例 ...

　　回过头来说“门”。门，直译自“Gate”，最初源自水门事件（Watergate Case），形容特别严重的政治事件，再后来也用于其它领域。“XX门”一般都是丑闻，而且门一旦被曝光，会让当事人付出严重的代价。“水门事件”让尼克松不得不辞职，成为美国历史上第一个辞职的总统。前几年意甲的“电话门”让尤文降级、AC米兰罚分，轰动世界足坛。而我们呢？街头的路人甲脱了裤子也配叫“门”？

　　真是史上最不值钱的门 ... 寻遍史书皆无出其右者，当之无愧！

2009年7月14日星期二

读《加分对录取的影响有多大》的一处疑惑

　　今天才看到7月3日的中国青年报新闻《加分对录取的影响有多大》[1]，里面有这么一段话：

　　“辽宁王先生孩子的高考成绩为615分,经过权衡，准备报考北京航空航天大学。他坦承，如果有体优生称号而享受加10分投档的话，就会转而报考上海交通大学或北京理工大学，‘在这个分数段，差10分就不得了，好则可以上一个更高档次的学校，至少也可以上一个更好的专业。’”

　　北航现在都混到如此田地了？令人难以置信。并不是说北理就差，但我印象中，这话应该反回来说才比较符合逻辑 ...

　　今天看联合早报的一则新闻[1]，提到了一篇文章《我不再看华尔街日报》，引起我的兴趣。

　　仔细查了一下，这篇评论发表在11日的《环球时报》上面[2]。作者丁刚，文中对其的介绍为“北京资深媒体人”，我在别处查到他是人民日报国际部副主任，高级编辑。

　　作者表示，他是华尔街日报多年的忠实读者，但这次该报的相关报道“不再只是以偏见和无知来看中国，而是公然站在了恐怖分子一边，成了他们的代言人”，“从今天开始，我不再是《华尔街日报》的读者。我已经把这家报纸的网址从我的浏览器中的‘书签’中删除，我还把每天通过电子邮件订阅的‘华尔街日报中文版’划入垃圾邮件。”

　　我原来也看华尔街日报网站，报道以金融经济新闻为主，其中文版偶尔也会有中国的时事评论。后来曾被封过一段时间，再后来网站改版，时事评论新闻不大好找，而且只有网站的注册用户才能查看新闻，我太懒就没再看。丁先生的文章让我重新翻了翻这个网站，关于新疆事件的报道不多，不过我也没看出它在新闻中美化暴力。至于它是不是真的堕落到丧失新闻道德，我还需要自己去判断，因此我把它的专栏评论版块的RSS[3]添加到Google Reader里，看一段事件再下结论。

　　另外，将查到的部分丁先生的文章列在下面：《中国媒体必须发出自己的声音》、《理直气壮地说要金牌第一》、《解放思想，突破西方话语牢笼》、《三鹿中了华尔街的毒》、《美国不是民主的救世军》、《中国媒体是谁的喉舌？》，确实是资深媒体人，一般记者不敢写这么大气的标题。

相关资料：
[1] http://www.zaobao.com/zg/zg090714_005_1.shtml
[2] 丁刚. 为什么我不再看《华尔街日报》. 环球时报, 2009-07-11. http://opinion.huanqiu.com/roll/2009-07/511615.html
[3] 华尔街日报：深度报道、特写、专栏及评论. http://chinese.wsj.com/gb/rss02.xml

2009年7月11日星期六

读《大失败-20世纪共产主义的兴亡》

　　[美]兹·布热津斯基：《大失败 - 20世纪共产主义的兴亡》

　　以前曾下载过这本书，但是没有认真去看。今天读了序章，发现几段话很有意思。摘录如下：

　　“确实，当时的名人谁也没有预料到，一个流亡的德籍犹太图书管理员精心阐述的、在19与20世纪交替之时被一个默默无闻的俄国政治小册子作者热情采纳的观点，会成为本世纪盛行一时的学说。”——P4

　　“希特勒的纳粹德国与斯大林的苏联后来进行的那场大战，使许多人忘记了他们之间的战争是一种共同信仰的两个派别之间的自相残杀的战争。确实，一个国家宣称自己要一如既往地反对马克思主义，鼓吹前所未有的种族仇恨，而另一个则把自己视为马克思主义的唯一正宗传人，煽动史无前例的阶级仇恨。但是，两国都把国家看作是集体行动的最高机构，都把残忍的恐怖用作迫使社会就范的手段，都进行人类历史上前所未有的大屠杀。两国还采用相似的手段对社会实施控制，例如建立青年团体，培植邻里告密者，对大众宣传媒介实行全面集中的检查等。最后，两国都声称自己是在建设最强大的“社会主义”国家。”——P8

2009年7月2日星期四

上来看看 ...

5月份的时候以为7月能解封，看来至少是国庆之后了。

其实真的不必这样做，堂堂中华容不下一个博客网站？

是自卑在作怪么？

2009年5月26日星期二

Blogger被封，更新很麻烦

不知什么时候能解封，估计7月差不多。

新浪博客继续更新：http://blog.sina.com.cn/goukijiang

2009年5月13日星期三

【毕设】日志-2009.05.07-09

-------------------
[日志] 2009.05.09

　　中午来到实验室，由于数据库索引没有建好，很难处理大规模的类别关系。这段时间写程序还是比较郁闷的。

　　下午写了一个关于实体基本关系的计数程序，想看看全部数据库到底能有多大。本以为会需要很长时间来处理，但即便有循环式的正则表达式判断，计数器的执行效率仍然很高。大概运行了两个小时就把Abstract.xml和Pages-Articles.xml跑了一遍。结果是惊人的：实体数有825万条，其中应该有很多都是无意义实体，因为Abstract中只有260万条；按照目前的实体关联关系建立方法，总的实体关系达到8300万个以上。单一实体的关系数统计结果如下（rel10+ num表示某实体与10-30个其他实体有关系，以此类推）：rel10+ num = 1225642，rel30+ num = 299359，rel50+ num = 197980，rel100+ num = 77193，rel200+ num = 23194，rel300+ num = 15059，rel500+ num = 4417，rel800+ num = 2888。有的实体页面竟然有超过800其他实体链接，也许这种文章是超长类型的。

遇到的问题：

　　数据库索引建立要耗费很多时间，目前只能基于小数据库来展开测试，接口功能暂时无从下手。

下一步计划：

　　整理一周工作，准备开会PPT。

-------------------
[日志] 2009.05.08

　　主要在准备思想道德评价答辩。

-------------------
[日志] 2009.05.07

　　上午来到实验室，把之前写的代码重新整理了一遍。理清了关系权值的计算方法，目前实体的直接父类关系权值可以自动累加。

　　下午在测试服务器代码时偶然发现，虽然早就安装了jre1.6，但运行程序时默认使用是1.5。这就是代码总在一段时间后自动停止的原因：或许旧版jre对SAX解析方法有数量限制。更改版本之后，错误消除。测试了一下英文实体摘要抽取速度，处理10万条大概需要6小时，太慢了。目前想到的方法是，改写MySQL插入方式为批量插入，即分析时先存进ArrayList，待积满100条后执行批量插入的SQL语句。想起来似乎很简单，还没写代码。

　　晚上与师兄讨论了当前存在的一些问题。

遇到的问题：

　　CategoryLinks表的子类名cl_sortkey索引没建完，估计要比导入的时间还长。

下一步计划：

　　明晚7点是小班思想道德答辩，需要准备PPT。

2009年5月11日星期一

【毕设】日志-2009.05.06

-------------------
[日志] 2009.05.06

　　上午来到实验室，继续写类别关系建立代码。期间发现之前写的查询接口不好用，重写了针对层次关系的数据库查询、插入接口函数。

　　下午修正了之前实体抽取的小问题。维基有一个页面重定向的设置，即几个实体名都指向一个页面，如“熊猫”和“大熊猫”其实都会指向“大熊猫”页面，但是在维基XML正文中是以[[大熊猫熊猫]]形式存在。在处理时只需要前半部分即可，减少了无用实体的数量。晚上写完了RelationCat类别关系表的建立代码，但是权值累加的部分还有问题。

　　晚上与师兄讨论了接口以及必要的数据结构，另外明确了几个问题。

遇到的问题：

　　下午与同组同学讨论时发现，在CategoryLinks表中，以子类名（cl_sortkey）作为条件查询父类（cl_to），返回结果需要很长时间。也许是由于cl_sortkey没有索引，如果为其建立索引，不知需要多长时间，也许需要数天。这个问题不解决，想大规模建立类别关联关系是不可能的。服务器运行写好的代码，一段时间后仍然会因出错而停住，或许Linux平台比较特殊，目前没有解决的办法。

　　类别关系权值的处理方法是，如果数据库中存在当前将要插入的类别对，则将其权值加1。目前的处理方法是，把rc_to和rc_sortkey设为约束键，如果插入的新项是数据库中已存在的，则程序抛出异常，如 java.sql.SQLException: Duplicate entry 'Ruwanda-Afurika' for key 'sortkey_to' ，在异常处理部分添加查询、更新代码。不过目前仍存在错误，添加的新代码会抛出新的异常，导致程序卡死。

下一步计划：

　　完成类别关系抽取功能，开始写接口的遍历功能。

【毕设】日志-2009.05.05

【按：好久没发了 ... 】

-------------------
[日志] 2009.05.05

　　上午来到实验室，发现师兄已经把服务器的MySQL成功启用了，查看了一下命令的历史记录，学到了一些东西。用本机测试连接，还是有点小问题。后来修改了 /etc/mysql/my.cof 文件，把 bind-address = 127.0.0.1 一行注释掉，重启MySQL服务后，可以正常连接到服务器了。

　　下午找师兄讨论了类别关系建立方法。实体基本关系表RelationEnt中既包括实体，也包括类别，这样就不必大幅修改之前写好的程序。类别关系表RelationCat中的内容由程序自动建立：首先分析RelationEnt中的存在基本关系的两个实体a和b（分别处于re_sortkey和re_to列），到层次关系表CategoryLinks中查找两者的父类（以cl_sortkey为关键词查找cl_to），结果假定为A1、A2和B1、B2。以a的父类为主体（作为rc_sortkey），在RelationCat中建立两者父类的关系（A1，B1）、（A1，B2）、（A2，B1）、（A2，B2），权值rc_value置为0。然后分析RelationEnt中的下一项，如果期间发现在RelationCat有重复，将权值加1。处理完RelationEnt后，再为RelationCat中每一项的建立父类关系，同时累加权值。整个过程看似简单，但是程序实现起来较难，尤其越到最后时间复杂度会变得很高。

　　另外，昨天在维基XML的正文描述中找到了信息表格。它以“{{Infobox 表格名”开头，至“}}”结束，里面的信息类似于“name = Mao Zedong birth = 1893 ... ”的形式。而且维基百科为每一类的实体提供了推荐模板，即规定了每个信息表格的标志属性。但是用户在实际编辑中往往并不遵守模板，形式相对灵活。

　　晚上试着用服务器运行实体抽取代码，有些问题。

遇到的问题：

　　服务器运行程序，在处理几千条后会停住。导致出错的XMLStreamException以及SAXParseException是我在Windows平台运行时从未遇到的，查看了JAVA文档[1]也没弄明白是什么原因。

下一步计划：

　　继续写类别关系建立的代码。并与马师兄讨论接口还需要哪些功能。

相关资料：
[1] 类javax.xml.stream.XMLStreamException的使用. http://gceclub.sun.com.cn/Java_Docs/jdk6/docs/zh/api/javax/xml/stream/class-use/XMLStreamException.html

2009年5月10日星期日

Nobodyknows+《メバエ》：奥特曼的爱情

　　偶然看到优酷上讲奥特曼爱情的MV视频[1]，歌曲是周杰伦的《我不配》。本以为是纯恶搞，看了几秒钟之后对MV专业的拍摄手法感到惊讶，这绝不是业余爱好者能做出来的。于是对此产生了兴趣，便到网上去查。

　　多数搜索结果都是网友毫无技术含量的转帖，配以“爆笑”、“雷人”等字眼，跟帖也没什么信息量。再配以视频最后的署名“制作人：人型牲口”来回搜索，查到一些有用的信息。

　　MV女主角是日本女星香椎由宇[2]，已经与曾在特摄片中扮演假面骑士的小田切让结婚了[3]。这段MV是日本说唱组合Nobodyknows+的作品，为了纪念奥特曼40周年而特摄制作，片名《メバエ》[4]，据说是萌芽的意思。原版MV的说唱风格显得凌乱，那种悲情的表现力比“人型牲口”网友改编的《我不配》差些。

　　还搜到几位网友的博客[5][6]，写的不错，虽然弄错了MV的来源。“在这部MV中，他的感情世界和感情经历得到了很好的诠释，让我们看到了一个全新的奥特曼。”

　　幸福是什么？幸福就是猫吃鱼、狗吃肉、奥特曼打小怪兽 ...

相关资料：
[1] 奥特曼版《我不配》. http://v.youku.com/v_show/id_XMzI3NjkxODA=.html
[2] 维基百科-香椎由宇. http://zh.wikipedia.org/wiki/%E9%A6%99%E6%A4%8E%E7%94%B1%E5%AE%87
[3] 假面骑士大战超人力霸王！小田切让香椎由宇电击结婚. 2007-12-28. http://mypaper.pchome.com.tw/news/quiff/3/1300946663/20071228002009/
[4] Nobodyknows+ メバエ. http://tieba.baidu.com/%CF%E3%D7%B5%D3%C9%D3%EE/shipin/play/1c0793d955d20014c720449a
[5] 向风刎颈送公子. 奥特曼版《我不配》. http://blog.sina.com.cn/s/blog_4e1dbed30100a770.html
[6] Negroo. 奥特曼大神的爱情. http://hi.baidu.com/buzhaofeng/blog/item/c153bd3c77fa93cf9f3d62fd.html

2009年5月9日星期六

就这样像狗熊一样笨死 ...

【按：中国的悲哀 ... 此人“匆匆走出放映厅”从5楼跑到1楼的“不会后悔”的行为，已经能够说明一切了 ... 】

看完《南京!南京!》怒砸影院银幕
日期：[2009年5月9日] 版次：[AA16] 版名：[城事] 稿源：[南方都市报]
http://epaper.nddaily.com/A/html/2009-05/09/content_785816.htm

本报讯（记者王文杰）前晚10时前后，中山金逸电影城1号放映厅内，看完《南京！南京！》的观众正陆续步出影厅，后排座位上的一名男子突然扔出一瓶奶茶，“啪”的一声砸到了银幕上。该男子称是因看了电影感到愤恨。受此影响，影院取消了下一场要放的《拉贝日记》。

　　记者当晚在放映厅看到，银幕上，一条明显的印痕从银幕偏上方一直流到底部。事发后，影院取消了原本计划下一场放映的《拉贝日记》，已购票的观众退票或转看其它影片。影院技术人员指着污渍表示，用一般手段难以清洗涂了特殊涂料的银幕。

　　当晚记者找到了砸银幕的男子姜某。姜某在中山市工作，是一名景观设计师。对于为什么要把奶茶瓶扔到银幕上，姜某说：“看了《南京！南京！》后，有种从来没有过的难受，对参与南京大屠杀的日本人充满了憎恨。实在承受不了，刚好有个瓶子，就砸了过去。”姜某还说，他已很久没有流泪了，但这部影片放映不久，他就哭了【交完3000块钱回家，他还会再哭一遍】。

　　姜某还说，他从这部影片中看到，南京大屠杀时，中国人的人性被肆意践踏。姜某告诉记者，最刺激他的一个镜头是，日本兵到难民营找100名女人做慰安妇，而难民营只能接受。姜某说，这个情节让他感觉“中国男人都到哪里去了【此人不懂得战争的基本常识】？只剩下这些女人做无谓的救援，一点意义都没有。假如是我，我肯定会去拼，直到死！【肯定会拼命地逃跑，一直到累死！】”姜某还说，现在的人被很多很小的社会琐事困扰，却把民族大义和民族情感遗忘了，生活压力让人累得没有心情去考虑民族大义【3000块钱一交，就更没有心情去考虑了】。

　　对于扔银幕的后果，姜某说：“不管给我一个什么处理，我都不会后悔【不后悔下一场观众看不了《拉贝日记》】。这件事对我以后的人生道路有更大的激发，会考虑为国家民族做更多事情【喝更多的奶茶，砸更多的电影屏幕】。”

　　男子行迹：1. 电影开播不久就哭了；2. 电影放映结束，一声“去他妈的”，从最后一排扔出一瓶喝剩的奶茶，砸到银幕上；3. 砸了银幕后匆匆走出放映厅，工作人员从5楼追至1楼追回【此乃全文亮点】；4. 和影院协商后，交纳3000元维修押金后离去。

2009年5月7日星期四

只憾欠时机，回顾增感叹

【按：午饭前后都在新主楼等了一会，竟还是错过了。无法一睹君之真容，足抱憾一生矣 ... 】

习近平视察民航数据通信及新航行系统科研基地
2009年05月07日15:21 来源：人民网-中国民航新闻网
http://caac.people.com.cn/GB/114124/9259566.html

　　人民网民航频道5月7日电 2009年5月6日上午，中央政治局常委、国家副主席习近平来到北京航空航天大学就高校深入开展学习实践科学发展观活动进行调研。在校党委书记杜玉波、校长李未等校领导陪同下，习副主席一行人视察了中国民航局与北京航空航天大学共建的民航数据通信及新航行系统科研基地。

　　科研基地副主任、电子信息工程学院院长张军教授向习副主席汇报科研基地的建设情况，重点汇报了空天地一体化网络、航空导航与空域监视等空管新技术的最新研究成果，以及与民航局、民航数据通信公司通过“产学研用”联合实现成果转化，在全行业推广应用的情况。

　　习副主席视察了空管教学与研发平台，饶有兴趣地观看了科研基地研制的飞机全球动态监视系统、卫星导航完好性监测系统、空地协同的民航空域监视设备等系统的实时演示，包括：

　　1、基于ARCARS（飞机通信与寻址报告系统）的飞机全球动态监视系统；
　　2、飞机发动机运行状况报文系统；
　　3 、民航空管运行中心保障系统（流量系统一期），展示了全国航班当前执行进度和一小时预测流量总图；
　　4、专机保障系统，回放了习副主席2月8日出访拉美五国和马耳他的专机飞行的历史动态航迹；
　　5、缩小垂直间隔（RVSM）空域评估系统；
　　6、林芝到拉萨的RNP航路（程序）三维飞行模拟系统；
　　7、卫星导航完好性监测和自主完好性监视（RAIM）预测系统；
　　8、航空导航综合测试平台系统；
　　9、首都机场多雷达融合系统（实时数据和飞行实况）；
　　10、成都双流机场雷达和ADS-B（广播式自动相关监视）信息融合系统（实时）；
　　11、ADS-B完好性评估系统；
　　12、航路安全评估系统。

　　视察中，习副主席关心的提到了学科教材建设、林芝等高原机场运行、新空管监视技术手段对南中国海空域主权的保障、低空空域开放、民航发展与国家大飞机建设、二代卫星导航系统产业结合等问题。

　　习副主席对北航在空管领域做出的贡献给予了充分肯定，希望结合学习实践科学发展观活动，针对国家重大战略需求，结合国家重大专项，如国产大飞机、中国第二代卫星导航系统等，建设空管创新研究平台，加强空管创新人才培养，增强持续创新研究能力，为国家经济发展和民航飞行安全做出更大贡献。

　　陪同习近平副主席视察的领导还有教育部部长周济，中央组织部副部长李建华和欧阳淞，工业和信息化部副部长、国防科工局局长陈求发，中央政策研究室副主任何毅亭。（通讯员李欣）

【毕设】日志-2009.05.01-04

-------------------
[日志] 2009.05.04

　　上午来到实验室，查看实体基本关系抽取测试情况：运行30小时，处理74万实体，590万基本关系。整理一周以来的工作，制作工作汇报PPT。

　　晚上开会，在交流过程中暴露出很多问题，如对类别关联关系的处理方法理解有误、接口高级功能的定位等。

下一步计划：

　　重写类别关系建立代码。

-------------------
[日志] 2009.05.02

　　中午来到实验室，发现程序在处理英文XML时仍然有些小问题，于是在实体关系表中加入编号作为主键，解决了问题。运行程序半个小时，处理2千实体，抽取到4万条基本关系。效率还是很低的。

　　同组同学的Graph重新做了设计，修改了获取数据的方法。因此，我的接口仅有两条关系还不够，目前想到的方法是用三层ArrayList构成三维数组。

下一步计划：

　　继续写接口功能。

-------------------
[日志] 2009.05.01

　　中午来到实验室，人果然很少。准备用英文维基的pages-articles.xml测试基本关系抽取。enwiki-20090306-pages-articles.xml.bz2压缩包就有4.8GB，解压之前先清理了一下硬盘，花了一个半小时解压完毕，得到的整个文件竟然达到21.2GB。虽然这段时间总是处理大数据，但这样的级别还是让我吃了一惊。加上正则表达式的低效率问题，最终处理起来肯定费时费力。

　　解压等待的过程中，又随手调试了昨天的代码，改进了准确度。之前对java.util.regex包中Matcher类的groupCount理解不深，误认为是匹配次数，其实是捕获组数。

晚上在寝室电脑的Ubuntu系统测试代码。

遇到的问题：

　　服务器的MySQL仍然无法启用。目前的代码需要频繁executeUpdate数据库，效率肯定很低，不知数据库的批量插入如何实现。

下一步计划：

　　明天中午有事，下午再去实验室，主要完成接口的两步关系查询代码。

相关资料：
[1] JAVA文档-软件包java.util.regex. http://gceclub.sun.com.cn/Java_Docs/html/zh_CN/api/java/util/regex/package-summary.html

2009年5月5日星期二

朝鲜日报新闻两则

【按：现在出来了，说不定以后还要回去 ... 】

中国大力开发图们江流域经朝俄走向东海
珲春、延吉=朝鲜日报驻北京特派记者崔有植 (2009.05.05 11:30)
http://chn.chosun.com/site/data/html_dir/2009/05/05/20090505000014.html

　　中国政府组成了由国家发改委和商务部、财政部、科技部等5个部门参加的图们江开发特别机构，去年11月推出了“图们江地区合作开发计划”草案。

　　达200页的该草案的主要内容是，借北韩和俄罗斯的港口，确保走向东海的出海权，以此为基础吸引韩国、日本、香港等地的外国企业。从珲春到东海只有20多公里，但中国被俄罗斯和北韩的国境隔离不能直接走向东海。其中包括投入2860亿元人民币建设该地区基础设施的计划。

　　地区行政体系的改制工作也在进行之中。其构想是，将朝鲜族聚居地延吉和龙井、图们合并成一个总人口达120万的城市，为能够吸引外部人口流入打下基础。

“图们江区域前景广阔，希望韩企积极投资”专访中国珲春市委副书记夏友照
珲春=朝鲜日报驻北京特派记者崔有植 (2009.05.05 11:32)
http://chn.chosun.com/site/data/html_dir/2009/05/05/20090505000015.html

　　夏友照提到，当初UNDP的构思是计划在30年间共投入300亿美元开发这一地区。他说：“还剩下10余年。目前中央政府对这一项目的关注度极高，相信今后有更快更好的发展。”

【转载】数据揭示日本有多少街霸4顶尖高手

【按：不知原始作者是谁，转自腾讯。不过令我惊异的是，梅原竟然不是最高分，被MAGO超过了 ... 欲知MAGO其人，请看街霸4 斗神降临！梅原大吾/Daigo挑战6大高手。】

表格统计了截至2009年4月中旬，日本街霸4顶尖高手的数量

解读表格数据：

1.使用率：指街机上被选择最多的角色，可以看到隆是最常用的角色，而达尔希姆是最冷门的角色。

2.G.Master：是街霸4街机上的最高称号“Grand Master”，只有BP分数在5万以上，并且保持很高胜率，再达成很多苛刻条件的玩家才能取得这个称号，图中可以看到，即使在日本，取得GM称号的玩家也屈指可数。

3.Master：次级称号，BP分数在4万以上的玩家可以取得。

4.BP分数：全称“Battle Point”，在街霸4与人对战中，取胜比赛可以获得BP积分，输掉比赛则扣掉相应的BP分，因此BP分数可以大致代表玩家的水平。（可以理解成龙珠中的战斗力数值。）

5.水平依次：“G.Master”强于“BP5万”强于“Master”

6.表中可以看到使用沙加特的GM最多，而即使在日本，还有五个角色没有GM，可见这五个角色使用难度之大。

7.截至2009年4月底，不完全统计一些知名玩家的BP分数：梅原大吾/17万；RF（斗志再击亚军）/15万；MAGO（マゴ，著名2D玩家，现痴迷SF4）/21万。（这几位可以理解成龙珠中的超级赛亚人。）

附表：BP分数对应的等级

2009年5月4日星期一

【毕设】日志-2009.04.29-30

-------------------
[日志] 2009.04.30

　　中午来到实验室，主要还是解决正则表达式的问题。text标签的内容是词条正文描述，里面除了有实体的链接外，还有一些无关链接，如类别链接[[Category:Iyobokamana]]，语言链接[[yo:Europe]]，文件链接[[Image:Europe_satellite_globe.jpgthumbright300pxUburayi]]等，在存进ent_text之前，最好将这些内容删去。目前用StringBuffer来避免逐行解析时漏掉某些链接的问题，或许会牺牲效率。

　　在匹配正则表达式时，采用的Matcher.appendReplacement(StringBuffer, String)方法似乎存在问题，输出的时候多打了一遍。后来仔细核对文档，发现必须用两个StringBuffer才行。基本关系抽取的代码到此也差不多了，只是没有用英文维基XML测试。原本这种处理是比较复杂的，但修改数据库后变得简单一些：把删除了无关链接的正文文存进entity表的ent_text项；同时通过ent_id和ent_title来更新relationent表的re_from、re_sortkey，将正文中的其他实体名存进re_to项。暂时通过实体名，而不是编号来查询数据信息，回避当前实体表不全的缺点。

遇到的问题：

　　服务器的MySQL服务仍然无法启用。

下一步计划：

　　劳动节继续劳动 ... 写高级接口功能。

-------------------
[日志] 2009.04.29

　　中午来到实验室，发现服务器的MySQL服务无法启用。昨天是可以用的，但是大三学弟昨晚调试PHP的时候重启了服务器，之后就无法启用了。花了两个小时，没有解决这个问题。几天前曾为了连接服务器修改过一些文件夹的权限，可能改乱了。下午与学弟一起，把服务器搬回了机房，用PuTTY测试连接，暂时没有问题。

　　晚上与同学讨论了一些毕设的进展问题。把UDMGrid-DOC0-数据库设计说明-20090429-0-jyb.doc上传到了FTP的设计文档目录中。

遇到的问题：

　　修改关系抽取代码时，正则表达式抽取到的信息并不准确，原因可能与SAX的抽取方式有关。SAX是逐行解析，会将段落中的每行割裂开，这样会漏掉一些实体的链接。本想用StringBuffer来解决，但是效果不好。

下一步计划：

　　尽快解决问题，然后写接口高级功能。

2009年5月3日星期日

推荐软件：RayDown狂雷FLV视频下载软件

　　原本下载FLV都用维棠[1]，但这个软件经常崩溃，速度也并不稳定。今天搜索才发现已经有后起之秀了，而且大有赶超之势，这便是狂雷视频平台。

　　为什么被称为平台？狂雷官网[2]是这样说明的：“狂雷视频平台是一款集FLV视频搜索、FLV视频下载、视频播放、视频转换、视频修复等一系列功能的综合性视频平台，视频搜索可以搜索多达796个视频网站的视频，具体有深度挖掘视频信息的功能，视频下载采用多线程下载与多CDN下载技术，下载速度飞快。视频播放器可以播放主流的在线视频格式，视频转换可以把下载的视频转换成3GP、MP4、AVI等格式供手机、IPHONE、PSP等手持设备使用。”

　　可以对比一下ViDown和RayDown的宣传语：前者是“全球最好用的FLV视频下载软件”；后者是“全球最好的FLV视频下载软件”。都不怎么谦虚，前者市场占有率高，后者技术更强。

　　在用的时候也感觉狂雷确实很强大，界面非常漂亮，而且速度快、稳定，支持网站也多。不过稍有些伤感：去年冯如杯我和寝室同学就打算做这种软件的，当时的设想是集下载、播放、搜索为一体。但后来没用心去做，只是在最后完成了论文。算是一种遗憾 ...

相关资料：
[1] 维棠. http://www.vidown.cn/
[2] 狂雷视频平台. http://www.raydown.com/

2009年5月2日星期六

试用Windows 7 RC Build 7100

　　前些天在学校FTP下了Windows 7最新的RC版，直到现在刚装。7100与原来的7000相比，并没有太大变化。在下AMD3000+、512MB*2的老机器明显带不动了，而且已没有当初试用Vista时的热忱。

　　老了。

　　附上中文语言包下载链接[1]，和查到的安装方法[2]。

相关资料：
[1] Windows 7 RC 官方简体中文语言包. http://dl.pconline.com.cn/download/53202.html
[2] 给Windows7 beta1安装官方中文包. http://publish.it168.com/2009/0310/20090310027101.shtml

2009年5月1日星期五

读西风独自凉《我心目中的美丽日本》

　　今天在Google Reader看到西风独自凉的博客《我心目中的美丽日本》[1]。文章还是那么大气，读来淋漓畅快。虽然题目看似主观色彩强烈，但文中引用了许多事例，是一种理性的论述。

　　西风在文末提到此文2007年在媒体发表过，什么样的媒体如此大胆开明？我细查了一下，是《新华时报》[2]。看了它的宣传语未免有几分失望“日本最具权威性和可读性，最有影响、最受欢迎的华文报纸。哪里有在日华人和中文爱好者，哪里就有《新华时报》。”果然不是国内的媒体。这篇文章发表在第163期[3]，有一些删节。

　　不过，最令我感兴趣的是文章最后一段：“至于道歉，老冰认为：美国在南海撞机事件后的‘I am sorry’可以算道歉的话，日本已经道过多少次歉了？田中首相，日本天皇，包括国人最恨的小泉，小泉在卢沟桥抗战纪念馆说了些什么可能国人都不去记忆了吧？”

　　脑海里没有一点印象，赶紧去查网络，原来小泉早在2001年10月8日参观卢沟桥纪念馆时就已发表过道歉。小泉还提笔写下了“忠恕”二字。据他本人介绍，这两个字源出中国《论语》，在《论语》中，曾子认为，“夫子之道，忠恕而已矣”[4]。“忠”者，诚心诚意； “恕”者，充分尊重对方感情[5]。他在结束参观后对记者们说，“我带着对受侵略的中国受害者衷心的歉意和哀悼的心情观看了各种展品”，“我们一定不能再次发动战争，这不是对那些在战争的灾难中倒下的人最好的回答吗？”[6]

　　国内媒体后来都有点选择性失忆，总是在小泉数次参拜靖国神社的问题上纠缠。至于靖国神社，我一直都没弄明白，还是不妄加评论了。

相关资料：

[1] 西风独自凉. 我心目中的美丽日本. 2009-05-01. http://www.de-sci.org/blogs/dzl/?p=29882
[2] 新华时报. http://www.xinhuatimes.net:8089/index.asp
[3] 新华时报第163期：我心目中的美丽日本. 2007-08-24. http://www.xinhuatimes.net:8089/read.asp?id=3852
[4] 南方网：小泉纯一郎参观卢沟桥及抗战纪念馆并向中国人民表示道歉. 2001-10-09. http://www.southcn.com/today/hotpicnews/200110090008.htm
[5] 人民网：日本首相小泉卢沟桥畔的“道歉”和“反省”. 2001年10月8日. http://www.tanghu.net/sitehtml/news/gn/2001/10616.htm
[6] 商报：小泉闪电访华表歉意，参观卢沟桥纪念馆敬献花篮. 2001年10月9日. http://pdf.sznews.com/gb/content/2001-10/09/content_242358.htm

【毕设】日志-2009.04.26-28

-------------------
[日志] 2009.04.28

　　上午来到实验室，修改数据库的ER图。下午主要在编写数据库设计说明文档。另外，与同学交流了一下正则表达式处理字符串的相关问题，感悟颇多。

　　下午近4点的时候，欣喜的发现，服务器的Categorylinks.sql数据已经导完了。但是在MySQL里查询该数据库的时候，却出现 ERROR 1018 (HY000): Can't read dir of './wikikb/' (errno: 13) 的错误，吓得我差点绝望。后来才想到，也许是之前测试连接数据库的时候，乱改了 /var/lib/mysql/ 目录的权限。在命令行中输入 sudo chown -R mysql:mysql /var/lib/mysql/ ，成功解决问题。整个文件有2.42GB，导入后占硬盘空间5.42GB，31692204Rows，耗时5天（每导入13000Rows需3分钟），真是可怕。

　　晚上班级有球赛，看完之后直接回寝室修改数据库文档。

遇到的问题：

　　代码可能需要很多修改。

下一步计划：

　　测试基本关系抽取代码，测试连接服务器的数据库。

-------------------
[日志] 2009.04.27

　　上午来到实验室，整理上周完成的工作，并制作工作汇报PPT。下午与同学交流，发现我们本周完成的工作都不尽如人意。

　　晚上汇报了工作情况，被师兄委婉地批评了一顿。不过明确了维基的根节点问题，写论文时又可以多凑些字了。

下一步计划：

　　开始基本关系代码的改写。

-------------------
[日志] 2009.04.26

　　中午来到实验室，发现英文实体表仍未抽取完，目前已运行超过20个小时。

　　晚上去看了大班毕业系列活动之唱歌比赛，心情调整的不错。

遇到的问题：

　　英文实体的抽取耗时给了我一些启示。由于维基的数据量太大，我没有必要完全处理。但是处理太少的话，又很难体现出深层的关系。如何把握这个度，还需要进一步研究。目前想到的方法是，将代码交给服务器，让服务器来完成完整的处理。

下一步计划：

　　由于去看唱歌比赛，耽误了每周例会，明天准备开会时要用到的工作汇报PPT。

2009年4月29日星期三

【转载】PC版街头霸王4为Games For Windows Live作品

【按：水墨渲染还不错，总算达到了宣传片的效果。】

转自驱动之家作者：Zhengogo 2009-04-29 10:37:54
http://news.mydrivers.com/1/133/133574.htm

　　根据GameSpot的报道，卡普空已将PC版《街霸4》确立为Games for Windows Live作品，这意味着除成就、好友列表、联机对战、语音聊天外，该作将享有与主机版一致的后继DLC待遇，甚至公司可能会把市面上已发布的各种DLC内容与原作打包后以单一售价一并推出，毕竟迟到要有迟到的好处对不？

　　公司还许诺PC版支持更高分辨率及各类画面附加选项（与显卡类型相关），譬如水墨渲染及水彩渲染：

原效果

水墨渲染：

水彩渲染：

海报渲染：

　　GameSpot的编辑见证该作在一台高规格笔记本上跑得很顺，想来硬件要求应该不会太高。

　　《街霸4》将于今夏与PC玩家见面，卡普空在其官方论坛确认虽同为Live作品，且外设支持度相同（比如同样支持Mad Catz街机手柄），但PC玩家与Xbox 360玩家不能跨平台对战。

2009年4月28日星期二

【毕设】周报-第10周

本周完成情况：

　　前半周时间重写了SAX解析XML的程序代码，绕过了SAXParseException异常问题。实验室的服务器Redhat Enterprise Linux 5.3系统不如想象中好用，重装为Ubuntu 8.10，并安装了MySQL等软件，开始导入层次关系数据库。与毕设同组的同学讨论了接口的高级功能。

　　维基百科网站真正的类别根节点是Contents（页面分类），它的子节点包括Articles、Categories、Timelines、Lists、Portals等。Portals（主题首页）并不如原来所想的那么重要。而Articles是英文维基的第二层最重要的节点，所有的词条页面都在它下面。

　　每周例会上汇报了工作。与师兄们交流后，明确了下一步工作内容。关于类别关系权值的设定，我之前理解错了，需要重新设计。

存在的问题：

　　用SAX解析XML虽然占内存很少，但是解析速度并不快。维基的数据量巨大，想要全部解析完毕几乎不可能。目前想到的方法是把代码导入服务器，由服务器慢慢处理。

　　对高级关系抽取的判定方法理解不深，还需要与师兄们再讨论。

下周计划：

　　继续基本关系抽取，完成外部接口的高级功能。设计实体间高级关系的判别方法。

Ubuntu 9.04官方源速度稳定

Ubuntu 9.04，前些天刚出的时候我就装了。装完之后的第一件事就是上网查更新源，原本以为台湾或者美国的服务器会更快一些，但是事实证明目前最快的源竟然是官方的欧洲服务器源 ... 兜了个大圈子。

输入sudo gedit /etc/apt/sources.list后，更改源。

附上源列表[1]：

Archive.ubuntu.com更新服务器（欧洲，此为官方源，电信网通用户使用)：

deb http://archive.ubuntu.com/ubuntu/ jaunty main restricted universe multiverse
deb http://archive.ubuntu.com/ubuntu/ jaunty-security main restricted universe multiverse
deb http://archive.ubuntu.com/ubuntu/ jaunty-updates main restricted universe multiverse
deb http://archive.ubuntu.com/ubuntu/ jaunty-proposed main restricted universe multiverse
deb http://archive.ubuntu.com/ubuntu/ jaunty-backports main restricted universe multiverse
deb-src http://archive.ubuntu.com/ubuntu/ jaunty main restricted universe multiverse
deb-src http://archive.ubuntu.com/ubuntu/ jaunty-security main restricted universe multiverse
deb-src http://archive.ubuntu.com/ubuntu/ jaunty-updates main restricted universe multiverse
deb-src http://archive.ubuntu.com/ubuntu/ jaunty-proposed main restricted universe multiverse
deb-src http://archive.ubuntu.com/ubuntu/ jaunty-backports main restricted universe multiverse

相关资料：
[1] 9.04 source. http://wiki.ubuntu.org.cn/index.php?title=Template:9.04source&variant=zh-cn

2009年4月27日星期一

【毕设】日志-2009.04.24-25

-------------------
[日志] 2009.04.25

　　中午来到实验室，中文实体表已经抽取完毕。

　　修改了部分代码，开始从英文Abstract.xml抽取英文实体。为了方便后续工作的进行，打算把实体表分为三部分：实体编号表、中文摘要表、英文摘要表。因为英文词条页面的描述信息太杂，没有必要全部存到数据库中，只需要在基本关系抽取过程中进行分析。

遇到的问题：

　　最近比较郁闷，似乎没心情作毕设。还好现阶段主要在运行已写好的代码，利用这段时间好好调整。

下一步计划：

　　等待实体表全部抽取完，开始大规模抽取基本关系。

-------------------
[日志] 2009.04.24

　　上午有个面试，下午2点多才回来。代码方面进展还算顺利，正在大规模的抽取中文Abstract.xml存进wikikb.entityzh，争取今晚抽完中文实体，明天完成英文实体表。

　　晚上与同组同学讨论了接口功能，以及GraphML所需的数据结构。由于Graph算法的输入是标准的树形结构，具体需要如何处理还要继续讨论。

　　实验室其他组正在学习面向对象建模方法，我也顺便学习了用例图、活动图、状态图等画法，写论文时会用到。

遇到的问题：

　　基本关系抽取必须要等英文实体表完成才能开始。目前仅针对测试数据（卢旺达语），正文中的基本关系较少。

下一步计划：

　　完成Web对象的抽取，开始测试基本关系抽取的代码。

2009年4月26日星期日

【存照】《关于中国核试验的代价》已被新浪移到回收站

　　很久都没发生过这种事了，起码最近的一次是在1月份。

通知 2009-04-23 01:30
您的文章《迷茫：关于中国核试验的代价 ...》已被管理员转移到回收站。给您带来的不便，深表歉意。

　　新浪博客的草稿箱功能变了：以前只要按“保存到草稿箱”，就可以创建出一个备份来；现在只要按了“发博文”，草稿箱保存的版本自动消除。这一点倒是和网易邮箱有些像，也许是为了减少服务器硬盘的开销。这样一来，文章被移至回收站，草稿箱里也没有备份，似乎只能“恢复文章”，不过这么做又明显是在与管理员作对。

　　还好Blogger那边限制较少，这篇文章也还在[1]。其实也不算是文章，只不过是贴了点搜索结果，给出的也都是大型网站的原始链接[2]，并非谣言。另外，把新浪的通知单拿出来写篇博文，并非出自被管产生的逆反心理，只是想存个照罢了。把这些东西留给历史吧 ... 它们都是见证。

相关资料：
[1] 迷茫：关于中国核试验的代价. http://goukijiang.blogspot.com/2009/04/blog-post_22.html
[2] The Sunday Times. Revolt stirs among China’s nuclear ghosts. 2009-04-19. http://www.timesonline.co.uk/tol/news/world/asia/article6122338.ece

2009年4月25日星期六

再说该管管“不需要管”之人，兼回“潇洒一生”

　　之前看过BBC的一篇文章[1]，觉得论证离题，便在博客里随意写了篇文章[2]。不曾想作者亲临，很正义的教育了在下一把。以下蓝色字体为评论全文，“【】”内为在下所加评注。

潇洒一生： 2009-04-24 13:50:21

文章是我写的，发了几家媒体，说明还是有人支持。你去看看该新闻背后的网友评论，绝大部分都是支持的【真的吗？为什么港台骂的更狠？他们为什么要骂，仅仅因为被批“太自由而乱”？】。我也许断章取义【承认断章取义，就是承认跑题，后面说的再多也没意义】，但就这一句话而言，如果你说错了，我建议你去进学校再去学学法律常识抑或哲学知识【在哪里能看到我说这一句话“错了”？这句话拿出来连韩寒都无法反驳：“我觉得成龙这句话看似简单随口，但有着其逻辑上的不可反驳性，也是我写文章这么久第一次遇见这种情况。”拿法律和哲学压人，这是不是“倚老卖老”？】。退一步说，如果一个人不能容忍他人一句“错话”，动辄大骂或竭力抵制，我看这个的心胸也够令人无语的了【离题了，在下的博文并未涉及此话题。如果先生感到无语，不如多写些文章教育那帮抵制家乐福的粪粪】。我本想查查你的资料，但查不出来【我文中引用的，都是你在大型网站发表的文章以及自己署的名字，并非你的个人资料，与低劣的人肉搜索八竿子打不着】，看文章应该是“上了年纪”的——身未老，心理老了【同意，大概是因为被管多了。看个BBC都要翻墙，能不累么。人被管多了，也许会“爆炸”的】。我一向十分尊重长辈，但我也讨厌一个长辈倚老卖老【我文中称成龙为“大哥”，称作者为“邓先生”，是谁在倚老卖老？】，“中学生的三段论去论证”没什么不好的【哪里能看出我文章说三段论不好？不够严谨的三段论容易得出错误的结论，仅取此意而已。先生整篇文章仅在一句话上纠缠，也是一种断章取义】，如果你觉得学生太幼稚，那也许源自于你没上过学【此处乃臆想式论断，本不值一辩，但仍想好言相告：以这种逻辑，亦可说成“如果你觉得学生不幼稚，那也许源自于你正在上学”】。

　　最后摘抄韩寒博文[3]的最后一段，与先生共勉。

　　“至于有些网友认为，中国人的确需要管理，要不然真的会很乱，我认为这是在偷换概念。任何国家任何星球的人都需要管理，但管理他们的，不是思想，不是制度，不是文化，不是宗教，不是意识形态，不是上级部门，而是合理的法律和尽量的公正。人民需要的是被服务而不是被管理，而官员最需要的是被管理而不是被服务，我们很多地方不和谐是因为我们不小心给整反了。”

相关资料：
[1] BBC-中国人谈中国: 该管管“不需要管”之人. 2009-04-23. http://newsvote.bbc.co.uk/chinese/simp/hi/newsid_8010000/newsid_8014200/8014205.stm
[2] 也说该管管“不需要管”之人. http://blog.sina.com.cn/s/blog_4a9fe7610100d82d.html
[3] 韩寒. 像成龙一样学会揣摩圣意. 2009-04-21. http://blog.sina.com.cn/s/blog_4701280b0100cupe.html

【毕设】日志-2009.04.22-23

-------------------
[日志] 2009.04.23

　　下午重写了SAX解析XML的代码，总算绕过过了之前的问题。现在想想，也许是因为标签开始事件和结束事件的响应函数写的不一致导致的SAXParseException。目前已能方便的处理维基的XML。

遇到的问题：

　　由于不断的修改SAX解析的函数，把存进MySQL的代码弄乱了。理不清执行的逻辑顺序，需要时间去整理。

下一步计划：

　　抓紧时间完成本周任务。

-------------------
[日志] 2009.04.22

　　中午来到实验室，无法启动服务器的MySQL，考虑到RHEL诸多不便，索性把服务器的系统重装为Ubuntu 8.10。下午配置服务器，安装了MySQL Administrator和MySQL Query Browser，处理起来比较方便。服务器的第二块硬盘设为LVM分区：

buaa@buaa-desktop:~$ sudo fdisk -l
[sudo] password for buaa:

Disk /dev/sda: 250.0 GB, 250059350016 bytes
255 heads, 63 sectors/track, 30401 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x000e4693

Device Boot Start End Blocks Id System
/dev/sda1 * 1 29646 238131463+ 83 Linux
/dev/sda2 29647 30401 6064537+ 5 Extended
/dev/sda5 29647 30401 6064506 82 Linux swap / Solaris

Disk /dev/sdb: 250.0 GB, 250059350016 bytes
255 heads, 63 sectors/track, 30401 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x0006b527

Device Boot Start End Blocks Id System
/dev/sdb1 * 1 30401 244196001 8e Linux LVM

　　晚上与曹同学讨论了他急需的接口功能，包括多层次的数据查询、实体间关系查找等。开始向服务器的MySQL中导入SQL数据库。

遇到的问题：

　　修改my.cnf文件试图获得MySQL数据库的访问权限，但运行本机代码未能成功连接服务器。SAX解析XML发生的错误仍未解决。

下一步计划：

　　改写抽取Web对象基本关系的代码，并实现获取多层（2-4）子类别信息的功能。

2009年4月23日星期四

也说该管管“不需要管”之人

　　成龙说了句“中国人是需要管的”，结果这几天挨了不少骂，几乎是一边倒的喷。

　　不过，也有特殊的，BBC的中国人谈中国栏目，今天就有个署名“中国湖北邓子庆”发了篇文章《该管管“不需要管”之人》[1]，巧妙的将论题转到“人，既然是社会的人，就必定是要被管的。不仅是中国人要被管，各国人都要被管，否则国将不国人将不仁。”，然后用中学生的三段论去论证“无规矩不成方圆”了。最后得出结论：“作为青年队伍的一员，笔者想说的是，我是中国人，我是需要被管着的，因为我相信，管因爱而生。如果你不想被管，你迟早会被社会所抛弃。”让人觉得莫名其妙。

　　在网上大概搜了一下，这位邓先生还是写过不少文章的，大多发在荆楚网上，同时也是BBC中国人谈中国的常客。这些时评文章的观点也算尖锐，不过今天这一篇的水平确实不怎么样，也许他也没看过成龙讲话的原文。成龙一共讲了五分钟，网上的视频大多是娱乐新闻的片段。韩寒在第一时间发布博文《像成龙一样学会揣摩圣意》[2]，有网友立即以韩寒没看全原话为由写了篇《像韩寒一样学会断章取义》[3]作为回击。

　　有人上传了整个采访过程的视频[4]，我认真看了一遍，感觉成龙大哥确实不会讲话，也难怪会被人抓到把柄。不过，把那句著名的“香港台湾因太自由而很乱，中国人需要管”单独抽出来，也算不得断章取义。而邓先生的那篇文章则是离题万里，批错了对象。在我国，一直认为自己“不需要管”的乃是某些政府部门和官员，依我看，不如管管他们。

相关资料：
[1] 邓子庆. BBC-中国人谈中国: 该管管“不需要管”之人. 2009-04-23. http://newsvote.bbc.co.uk/chinese/simp/hi/newsid_8010000/newsid_8014200/8014205.stm
[2] 韩寒. 像成龙一样学会揣摩圣意. 2009-04-21. http://blog.sina.com.cn/s/blog_4701280b0100cupe.html
[3] 像韩寒一样学会断章取义. http://www.21r.com.cn/index.php/group_thread/view/id-10819
[4] 新浪播客-成龙批港台，自由多太混乱. http://you.video.sina.com.cn/b/20070706-1439423814.html

2009年4月22日星期三

【毕设】日志-2009.04.20-21

-------------------
[日志] 2009.04.21

　　今天上午去上地参加一个笔试，下午两点多才回来。晚上与大三的学弟一起配置服务器，越弄越乱 ...

　　上周末开会时，师兄提到一种为关系添加权值的方法，而且要把关系实例表分为实体间关系和类别间关系两种。整理一下思路，发现这种方法也很难实现。例如，熊猫吃竹子，单纯考虑熊猫属于动物类别，竹子属于植物类别，把上层类别的关系权值增大。继续分析类似的基本关系，最终这种动物吃植物的关系权值会达到很大的数目，可以作为判别高级关系的依据。不过这些只能是理想化的分析，实际上无法做到这种效果。原因就在于，维基百科是众多网友编辑而成的，严格去评价的话，里面的内容不够规范。比如，熊猫词条（Giant Panda）的上层节点是这样的（只选择一条路径）：Giant Panda -> Mammals of China -> Mammals of Asia -> Mammals by geography -> Animals by geography -> Animals -> Zoology -> Biology -> Natural sciences -> Nature -> Main topic classifications -> Articles -> Contents。也就是说，比较有用的Animals类别与Giant Panda实体的距离非常远，而且按照别的路径来走还未必能走到Animals。

　　上次和同组同学分析层次关系数据库时错认为Portals是维基的根节点，今天我又仔细的核对了一下，发现少算了一层。维基百科网站真正的类别根节点是Contents（页面分类）[1]，它的子节点包括Articles、Categories、Timelines、Lists、Portals等。Portals（主题首页）[2]并不如原来所想的那么重要，里面包含了如Culture portals、History portals、Science portals、Society portals等各个领域的子类。不过，网友也可以创建独特的Portals，中文维基的Portals页面很乱，有一些小领域也被加进首页（如“多啦A梦”、“篮球”竟被放在二级目录），英文维基要好一些。而Articles[3]是英文维基的第二层最重要的节点，所有的词条页面都在它下面。中文维基的根节点与Articles很像，却不同于Contents。

遇到的问题：

　　Redhat Enterprise Linux 5.3的DVD集成了很多软件，但是安装的位置很乱，很难按照网上的教程进行进阶配置。比如MySQL服务的自启动仍未实现；大三的学弟装Apache、PHP时也遇到了一些问题；另一位学弟调试了很长时间也无法从服务器数据库取到数据。

　　很多想法只停留在设想阶段，实现相关功能时总会遇到各种问题，不得不砍掉一些设计，因此也耽误了进度。

下一步计划：

　　这两天花在毕设的时间不多，精力浪费在服务器的一些小问题上。暂时搁置服务器的问题，继续写代码。实在不行就装回Ubuntu，起码软件应用的问题会少点。

相关资料：
[1] Contents. http://en.wikipedia.org/wiki/Category:Contents
This is the root, or top level, of Wikipedia's category system. Its subcategories contain encyclopedia articles as well as project pages. Pages do not appear in this category directly, only in its subcategories (or, more likely, in further subcategories of those).
页面分类（中文维基根节点与英文不同，更像是英文的Articles页面）：这里是维基百科页面分类系统的最高级，所有分类皆可从此进入。分类方式系“依学科分类”，主要参考杜威十进制图书分类法的学科分类方法；不足之处，则参考中国图书分类法及赖永祥中国图书分类法作适度调整。
[2] Portals. http://en.wikipedia.org/wiki/Category:Portals
This category contains the English Wikipedia's portals. A portal is a focus page which highlights a particular subject, to complement the main article on that subject. Portals feature articles covering the portal's theme, and generally provide lists of related articles, and thus provide an alternative means to browse on Wikipedia.
主题首页（中文维基Portals不如英文规范）：主题首页是为对某一领域的知识感兴趣的维基人及一般读者提供的首页，用于帮助查找该主题的资料，并扩充与该主题相关的条目。一个维基主题可与一个或多个专题相连。
[3] Articles. http://en.wikipedia.org/wiki/Category:Articles
This is the highest-level category for all articles in Wikipedia. Articles do not appear in this category directly, but at lower levels in its hierarchy of subcategories.

-------------------
[日志] 2009.04.20

　　上午有个笔试，下午陪同学去了一趟中关村，晚上6点半参加一个软件公司的宣讲，快9点才结束。

　　将Category表项导入了服务器的数据库，为MySQL设置密码，mysqladmin -u root -p "123456" ，暂时先这样。另外，安装了PuTTY[1]，试用了一下，不大方便。

遇到的问题：

　　暂时没能为MySQL设为自启动，网上的一些方法都试了还是不行。

下一步计划：

　　这几天很累，尽快调整状态，有效开展工作。

相关资料：
[1] PuTTY: A Free Telnet/SSH Client. http://www.chiark.greenend.org.uk/~sgtatham/putty/

迷茫：关于中国核试验的代价 ...

　　刚在BBC上看到这个新闻，又跑到Times Online上搜到了原文，看来是有些依据的。对于两弹，我们还应该引以为傲吗？暂时没想明白，不知该说什么好 ...

【04.22补：美国之音也发布了报道，也许是解密了。】

相关资料：
[1] BBC. 中国核试验的代价. 2009-04-21. http://newsvote.bbc.co.uk/chinese/simp/hi/newsid_8010000/newsid_8010300/8010327.stm
星期天的《泰晤士报》用一整版报道了中国几十年试验原子弹所造成的生命代价。报道说大约有19万中国人死于中国的核武器试验。根据最新的研究显示，中国从1964到1996年的核武试验所导致的死亡人数比世界上任何国家的人数都要多。

[2] The Sunday Times. Revolt stirs among China’s nuclear ghosts. 2009-04-19. http://www.timesonline.co.uk/tol/news/world/asia/article6122338.ece
Up to 190,000 may have died as a result of China’s weapons tests: now ailing survivors want compensation. Additional reporting: Shota Ushio in Tokyo and Imogen Morizet in Washington.

[3] 星洲日报. 《泰晤士报》引述日本研究：祸延几代中国核试19万人致癌. 2009-04-20. http://www.sinchew.com.my/node/110821?tid=2

[4] VOA. 报道称中国十九万人或受害核辐射. 2009-04-20. http://www.voanews.com/chinese/w2009-04-20-voa38.cfm

2009年4月21日星期二

【毕设】日志-2009.04.18-19

-------------------
[日志] 2009.04.19

　　中午来到实验室，整理了一下本周的工作，完成了这周工作汇报的PPT。另外，调试了一下以前的代码。晚上开会，关于数据库结构的两个小问题没有在PPT上体现出来，口头描述费了挺大劲才说清楚。会上明确了下周工作计划。

　　按照网上的方法，在 /etc/rc.d/rc.local 文件的最后加上： /bin/safe_mysqld --user=mysql & ，仍未实现RHEL5.3环境下MySQL服务的自启动。

遇到的问题：

　　使用WikiObjReader代码抽取英文XML时，依然遇到 org.xml.sax.SAXParseException 问题。此外，通过转换编码到Unicode也不行，排除了文件编码的原因。

下一步计划：

　　下周最重要的是先把数据库导入到服务器上，同组同学急需。

-------------------
[日志] 2009.04.18

　　中午来到实验室，发现昨晚安装的RHEL5.3无法进入图形化界面，xorg没有装上。于是重装了一次，在定制软件的时候把所有与xWindows和xorg的包都勾选上。安装过程耗时半小时，重启后成功进入Gnome。一开始没能启动MySQL，后来通过 service mysql start 命令启用mysql服务，可以成功使用MySQL了。

遇到的问题：

　　服务器备份的原数据暂时没有导入。

下一步计划：

　　准备周日晚上开会需要的PPT，整理本周完成的工作。

【毕设】周报-第9周

本周完成情况：

　　之前使用JDOM包来处理XML，但这种方式不适合规模巨大的XML文件。后来转用SAX重写了Web对象抽取及插入数据库的部分代码。SAX（Simple API for XML）是一种古老的XML处理方案，它从上到下一行一行的读入文件，基于事件处理方式边读边解析。与毕设同组的同学一起讨论了获取数据库的实现方法，完善了接口功能的设计。

　　为实验室的服务器重装Redhat Enterprise Linux 5.3系统，导入部分数据到MySQL数据库中，方便后续开发者使用数据。为数据库设计了关系描述表和关系实例表，作为补充。

　　周日晚上开会汇报了本周的工作。与师兄们交流后，明确了下一步工作内容。上周我们组毕设中期答辩的效果还算不错，受到师兄的表扬。本周进度勉强算可以，但是需要加强危机意识。

存在的问题：

　　弃用JDOM方法，转用SAX耽误了很多时间和精力，部分工作相当于白做。这种问题出现的原因在于前期调研不够充分，被网上某些教程误导。今后要避免这种情况再度发生。

　　用SAX解析XML并不如想象中容易，遇到的问题都与XML数据量过大有关。如org.xml.sax.SAXParseException等，还需要再研究。

　　服务器RHEL5.3系统里集成的MySQL不好用，连接时出现超时的问题。

下周计划：

　　继续基本关系抽取，完善外部接口功能，尽快处理好服务器的数据，解决连接问题。

2009年4月19日星期日

做人肉叉烧包的影帝指责肯德基虐鸡

　　在食堂吃晚饭时，电视里播出娱乐节目，说黄秋生给某快餐连锁集团写信要求停止虐鸡。本以为是新闻，回来一查，竟是两个月之前的事[1]。想想中国校园视频的效率，还真符合它的一贯风格。

　　下面说说这个虐鸡的事。黄秋生给肯德基母公司百胜集团总裁David Novak的信是中文的[2]，我上网查了一下，没有关于Novak总裁精通中文的资料。那么，可以初步认定此事是炒作，这信也是写给中国人看的。

　　信中写道“鸡的好奇心很强，而且非常有趣。它们能够理解复杂的智力概念，通过观察其它鸡来学习，表现出很强的自制能力，甚至拥有世代相传的文化知识。”看起来很美，却充斥着模糊的用词及描述，只能骗骗小孩子罢了。

　　有关肯德基的谣言在网上流传很广，辟谣的资料也不少。关于虐鸡，那个善待动物组织PETA声称掌握了很多证据，而且还录制了煽情的广告[3]。不管这个是否真实，起码黄秋生的信有很多不实之处，针对这些已经有网友作了很合理的驳斥[4]。

　　凭借《八仙饭店之人肉叉烧包》[5]（1993年）取得第13届香港电影金像奖最佳男主角的黄秋生，“变态和暴力是他影片的一大类型”。习惯了在电影里虐人的影帝，却去教餐饮公司如何善待鸡，讽刺之至。

　　看看新浪娱乐的黄秋生页面[6]，写信事件之后的新闻大多与一部叫做《金钱帝国》的电影有关，这难道不是他炒作的确凿证据么？

相关资料：
[1] 重庆时报: 黄秋生写信致肯德基总裁要求其停止虐鸡. 2009-02-27.
http://ent.sina.com.cn/s/h/2009-02-27/05202393929.shtml
[2] 新浪娱乐: 黄秋生致信肯德基总裁促请残忍虐鸡全文. 2009-02-26. http://ent.sina.com.cn/s/h/2009-02-26/15462392990.shtml
[3] Kentucky Fried Cruelty The Movie - Torture Camp. http://www.kentuckyfriedcruelty.com/f-kfc_fried_videos.asp
The trailers and accompanying descriptions are a fictional dramatization inspired by true events.
[4] 游客2350072 在2009年2月28日 12:53说.
http://laiba.tianya.cn/laiba/CommMsgs?cmm=6293&tid=2653450032627680368&ref=commmsgs-paging&na=3&nst=51&pno=2&cpno=1&nid=20973-2653450032627680368-2653799239239897849
[5] 百度百科-人肉叉烧包. http://baike.baidu.com/view/178365.html
[6] 明星全接触-黄秋生. http://ent.sina.com.cn/s/h/f/huangqs/

【毕设】日志-2009.04.16-17

-------------------
[日志] 2009.04.17

　　下午与马师兄讨论了当前的一些问题。昨天抽取中文abstract-zh-cn.xml时，程序报错说没有anchor标签没有结尾：[Fatal Error] org.xml.sax.SAXParseException: 2053:210: The element type "anchor" must be terminated by the matching end-tag "/anchor".。今天在师兄的帮助下，初步判定不是XML的问题，也许与汉字编码有关。另外，我用容器来处理每个子节点内容的方法也被师兄认为是不必要的，甚至会造成程序的崩溃。究其原因，是我对SAX的理解不够深入。

　　为了把数据库导入到服务器上，大三的学弟把服务器机箱从学校机房搬到实验室。按照周师兄的要求，需要为其重装RedHat Enterprise Linux系统。但是服务器的Ubuntu 8.10系统出了点问题，开机只能启动命令行界面，用startx命令也无法进入图形化界面，这样一来就很难在重装之前导出数据来备份。后来借助Ubuntu的LiveCD进入系统，成功的导出了文件。从网上下载了RHEL5.3 [1]，以及FTP上的4.6，都刻了盘待用。

　　晚上改写了数据库插入的代码，减少了数据库连接次数，运行速度提高了很多。

遇到的问题：

　　如果在SAX解析器中加入Web对象基本关系抽取的代码，不知效率会不会很慢。

下一步计划：

　　完善数据库格式设计，包括关系实例表的设计、解决实体与类别表的冲突等。

相关资料：
[1] Redhat Enterprise Linux V5 UPDATE 3下载地址：http://ftp.wallawalla.edu/pub/isos/ISOS/redhat/rhel/5.3/rhel-server-5.3-i386-dvd.iso 注册码2515dd4e215225dd仅限安装，无法更新。

-------------------
[日志] 2009.04.16

　　中午来到实验室，继续写SAX处理XML的代码。下午实现了对abstract.xml中title、url、abstract，pages-articles.xml中title、id、text标签内容的抽取。晚上对代码进行修改，可以将抽取到的字符串存入数据库相应的表项。另外，马师兄回复我昨天的邮件时提到，“把mysql的程序目录连其数据及其copy下来，将来恢复时简单的在文件系统里覆盖源文件就可以，就不用再导入数据”。作了一下实验，是可行的，但初次的数据时必须导入完全。

遇到的问题：

　　维基提供的XML太过巨大，因此频频遇到新问题，而在测试时都不曾见到（测试采用Kinyarwanda卢旺达语版）。

　　比如在处理zhwiki-20090116-abstract-zh-cn.xml时，竟然会出现[Fatal Error] :10:199: The element type "anchor" must be terminated by the matching end-tag "/anchor". 是说这个XML里有一处anchor标签没有结束项，而用另一种逐行解析的代码就没有问题。另外，在把抽取结果存储进数据库的时候，也会出现一些小错误，是由于卢旺达语比较怪异的字符引起的。java.sql.SQLException: Incorrect string value: '\xE8\x8C\x85 na...' for column 'ent_abs' at row 1. 英语应该不会出现这种问题。

下一步计划：

　　这周进度有些慢了，被一些小问题纠缠。明天开始Web对象简单关系抽取，设计新的数据库表项，包括上次开会提到的关系描述表、关系实例表。

2009年4月18日星期六

JDOM解析XML方法小结

【按：JDOM是解析XML的JAVA工具包，但是无法处理大文件，超过上百兆的XML最好用SAX来解析。虽然最终选择了古老的SAX方法，但JDOM的简便也给我留下了深刻的印象，特将调研和编码过程中的心得整理出来。】

// jdom处理XML，page是主要节点，包含id、name等子节点

import java.io.*;
import java.util.*;
import org.jdom.*;
import org.jdom.input.SAXBuilder;

public class JdomReader {
　　public static void main(String[] args) throws IOException, JDOMException
　　{

　　　　String filename = "D:/test.xml";

　　　　SAXBuilder builder = new SAXBuilder();
　　　　Document doc = builder.build(new File(filename));

　　　　// 取根节点
　　　　Element root = doc.getRootElement();

　　　　List list = root.getChildren();
　　　　System.out.println("节点个数为:" + list.size());

　　　　Iterator i = list.iterator();
　　　　while (i.hasNext()) {
　　　　　　Element page = (Element) i.next();

　　　　　　// 取page的子节点，涉及到复杂的名字空间
　　　　　　System.out.println(page.getChild("id", page.getNamespace()).getText());//.getName());//
　　　　　　System.out.println(page.getChild("name", page.getNamespace()).getText());
　　　　}
　　}
}

-----------------
相关资料：
[1] JDOM官网（包括下载与文档）. http://www.jdom.org/index.html
[2] JDOM使用详解及实例. http://blog.sina.com.cn/s/blog_4b4cb0690100094a.html
[3] java解析xml（jdom）. http://hi.baidu.com/sunxiangwei/blog/item/6a0a3ff36d04c657352accf1.html
[4] 百度百科-JDOM介绍及使用指南. http://baike.baidu.com/view/1569983.htm
[5] jdom例子程序. http://hi.baidu.com/feiyuyitiao/blog/item/861ab32bc7bdb2fbe6cd40d9.html
[6] jdom实例-利用jdom读取xml文件实例代码. http://www.zxbc.cn/html/20071129/29876.html
[7] java解析xml文件四种方式. http://blog.163.com/howl_prowler/blog/static/266197152008426111858717/

【毕设】日志-2009.04.14-15

-------------------
[日志] 2009.04.15

　　上午去图书馆查了几本关于MySQL的书。中午来到实验室，调试以前的Web对象抽取代码。

　　在网上调研相关资料时，发现了JDOM处理大XML报错的原因，跟我之前想的一样，是JAVA虚拟机空间不足的问题。JDOM是基于树型解析，它解析的时候会把整个文件读入内存，然后遍历所有标签，生成子节点列表。这种解析方式在处理小文件时有着很高的效率，可是遇到大文件就无能为力了。SAX（Simple API for XML）是一种古老的XML处理方案，它从上到下一行一行的读入文件，边读边解析。它是基于事件处理的（遇到每个标签都要有相应的处理），使用起来很麻烦，但似乎是目前处理超大XML文件的唯一办法。通过查找相关的示例源码，暂时实现了对超大XML的简单抽取。SAX不理会标签的名字空间（JDOM对名字空间的要求很高），因此只适合读取XML，不适合修改。

　　调试代码的过程中有个小问题，setContentHandler的输入参数不正确，困扰很长时间。后来才发现忘了继承DefaultHandler父类。

遇到的问题：
　　Web对象抽取的代码还需要继续重写，这次又走了点弯路。当初调研的时候不够认真，看到网上对JDOM评价很高，示例源码也多，而且有的使用心得介绍JDOM处理大文件也很方便，就没有再去查DOM、SAX这些古老的东西。现在想来，差点被害死。

下一步计划：
　　数据库最好导入到服务器上，明天与大三的周学弟商量一下看如何解决。

相关资料：
[1] SAX. http://www.saxproject.org/

-------------------
[日志] 2009.04.14

　　今天上午参加了一个笔试，下午才回来。读了实验室项目OlympicVis处理XML和数据库的相关代码，并把包含了层次关系的数据库传给同学。

　　晚上调试了一下曹同学连接数据库的代码，发现数据库配置文件database.properties里的变量名与程序不符。修改好配置文件后，数据库可以连接成功。然后与曹同学一起讨论树的层次关系的实现，维基百科的Category类别根节点是Portals（门户入口），其下的子类都是各个领域的名称，比如Culture portals、Science portals等，其中Culture portals又包含Culture、Food等，Culture中又包含Arts、Civilization等子类 ... 如此查下去，似乎可以得到一颗很漂亮的领域树。不过这里面仍然有可导致循环的层次关系，这是由于维基百科的编辑者都是很多普通网友，某些人对层次关系的定义并不严谨。

遇到的问题：
　　层次关系中存在的错误定义（树变成了图）随着数据库规模的增大，有可能导致严重的问题，目前没有想到更好的解决办法，只能说是维基百科的局限性。

下一步计划：
　　与曹同学讨论数据获取的过程中，对接口模块有了一些新的思路。明天去图书馆借点数据库开发的书，特别是批处理等功能，也许会提高接口模块的效率。

2009年4月17日星期五

【毕设】日志-2009.04.13

-------------------
[日志] 2009.04.13

　　上午整理文档。下午重写了Web对象抽取的代码。解决了text子节点内容抽取时空指针异常（java.lang.NullPointerException）的问题，因为维基的XML名字空间复杂，只有获取正确的名字空间才能抽取到标签的内容。

　　确认了数据库categorylinks表中cl_from项编号含义，的确是cl_sortkey（子类、子实体）的id号，而且此编号也确实不是唯一的。这是因为我之前错把cl_from看作了主键，仔细看categorylinks的SQL建表语句，里面只是限定了一种约束：UNIQUE KEY `cl_from` (`cl_from`,`cl_to`)，并没有提到PRIMARY KEY。例如，在中文的类别信息中，查到跟“天安门广场”有关的数据如下：(4118,'世界之最','天安门广场',20071031041840),(4118,'北京','天安门广场',20071031041840),(4118,'广场','天安门广场',20071031041840)，4118就是“天安门广场”词条的唯一id号，与XML中的标签一致。

遇到的问题：

　　目前实验采用的是数据较少的Kinyarwanda（卢旺达语）版（如下图），但是在处理英文维基时，会发生错误，可能是数据量太大超过了某些变量原有的空间限制。

　　试着将一些中文数据导入数据库，但是显示的时候成了乱码。数据库配置文件my.ini中的default-character-set改为gbk和utf8都不行，不知如何解决。

下一步计划：

　　明天上午要参加一个笔试。争取完成将抽取到的信息存进数据库的功能；另外，再试试可否解决英文XML处理的报错问题。与曹俊超同学一起学习可视化工具获取数据的方法，并着手编写相关代码。

中国又强大了一回 —— 德国广告公司道歉

　　继发表《德安全套广告以中国领袖为主角德专家驳斥》[1]和《德侮辱已故中国领袖安全套广告激怒中国网民》[2]后，环球时报又在今天发布了后续报道《海外华人强烈不满德公司为侮辱中国领袖道歉》[3]，算是为“德国辱华”事件划上了一个完美的句号。报道指出，中国驻法兰克福总领馆因为此事正式出面交涉，使得德国第二大广告公司Grey Worldwide的CEO递出了道歉信。

　　我登陆了原来的页面[4]，Doc Morris Pharmacies: Mao Tze-Tung广告果然已被撤下。页面里只显示“requested page not found, Continue to Ads of the World home page or search for the content you're expecting to see on this page.”。一同被撤的，还有Adolf Hitler和Osama Bin Laden。要上三个人都上，要撤就一起被撤，其实粪青们应该继续抗议Grey Worldwide公司这种撤广告的方式。当然，更有可能的是，他们不知道也不想知道原始链接的页面是什么样的。

　　从事后的反响可以看出，部分国人因为中国的又一次强大而感到欢欣鼓舞：在“德国热线”华人论坛上，一名网友说，从此事可以看出西方一些机构的“小丑行径”。还有的网友说：“看到道歉信，我对祖国日益强大的国力感到无比自豪。在过去，帝国主义向我们道歉是完全无法想象的。”

　　其实这位网友大可不必感到自豪，在Google中输入“正式道歉”关键词，返回的2,280,000项结果有90%以上都是外国政府、公司或个人向中国人民道歉的新闻网页。过多的道歉只会让局外人觉得中国人民是个惹不起、也躲不起的群体 —— 连一个普通的广告创意页面都能被扒出来。

　　中国人民如此擅长“不高兴”，就是那种小屁孩在地上滚来滚去叫嚷着“我不高兴、我不高兴”的方式，遇到点破事就能不高兴，没有的话找点破事也要不高兴。不知再过几十年，后辈们如何看待这段历史，也许就跟我们现在看文革的笑话一样。

相关资料：
[1] 环球时报驻德国特约记者青木. 德安全套广告以中国领袖为主角德专家驳斥. 2009-04-14. http://world.huanqiu.com/roll/2009-04/431827.html
[2] 环球时报. 德侮辱已故中国领袖安全套广告激怒中国网民. 2009-04-14. http://china.huanqiu.com/roll/2009-04/432791.html
[3] 环球时报驻德国特约记者青木. 海外华人强烈不满德公司为侮辱中国领袖道歉. 2009-04-17. http://world.huanqiu.com/roll/2009-04/435320.html
[4] Doc Morris Pharmacies: Mao Tze-Tung. http://adsoftheworld.com/media/print/doc_morris_pharmacies_mao_tzetung

2009年4月16日星期四

【毕设】周报-第8周

-----------------
[周报] 第8周进展情况

本周完成情况：

　　本周前几天对中期报告文档及演示文稿进行了修改和完善。Web对象关系库方面，完善了数据库ER图。

　　上午9点正式答辩，答辩过程还可以。被老师问到的都是小问题，完成文档列表有些虚张声势，不应该包含程序流程图（当时写的是完成文档及演示文稿10份，绘制图纸7份。我后来想了一下，可能是我没有弄清楚用例图、活动图和流程图的概念和区别，用例图和活动图是可以放进去的，流程图不在此列）；用来处理的原始数据都包括什么内容（XML文件主要是维基百科网站的页面信息，爬虫爬取的是维基词条页面）。

　　和我一起的曹同学答辩的也很顺利。相较而言，其他人的毕设完成情况不太好。后来向师兄汇报了中期答辩的相关问题。

存在的问题：

　　Web对象的抽取工作尚未完成。维基百科数据量巨大，处理全部数据需要很多时间。目前只处理了一半左右的信息量，对现阶段工作来说已经足够。但是这样无法满足UDMGrid的需求，可以考虑优化抽取算法，节省处理时间。

　　在抽取到基本关系的基础上，加上人工定义规则，从结构化信息中抽取出词条间的语义关系。由于基本关系比较杂，难以进行单一的判断，而是需要大数据量的统计。

下周计划：

　　完成基本关系抽取，开始外部接口模块的代码编写。

2009年4月15日星期三

【毕设】日志-2009.04.08-12

-------------------
[日志] 2009.04.12

　　也许昨天我的电脑机箱被人踢到了，今天来实验室时发现机箱位置有了些偏移，开不了机。花了两个多小时修电脑，总算是修好了。原因应该是主板电池的问题，以及开机按钮接触不良。目前只能用镊子连通电源针脚。

　　下午完善了中期报告，作为最终版传到了FTP。晚上开会，又把中期报告的内容给各位师兄讲了一下。马师兄定下任务：每天给组内发一封邮件，汇报完成的工作、遇到的问题以及下一步计划。其实这与本站点的创立原因是一样的。

-------------------
[日志] 2009.04.11

　　中午小班聚会，跑到微软亚研那边的一个饭店搓了一顿。喝酒喝的有点困，下午没来实验室。

-------------------
[日志] 2009.04.10

　　上午9点正式答辩，答辩过程还可以。被老师问到的都是小问题，完成文档列表有些虚张声势，不应该包含程序流程图（当时写的是完成文档及演示文稿10份，绘制图纸7份。我没弄清楚用例图、活动图和流程图的概念和区别，用例图和活动图是可以放进去的，流程图不在此列）；用来处理的原始数据都包括什么内容（XML文件主要是维基百科网站的页面信息，爬虫爬取的是维基词条页面）。

　　和我一起的曹同学答辩的也很顺利。相较而言，其他人的毕设完成情况很不好，有两位同学的所谓中期汇报连开题报告的水平都达不到，没做任何工作，只是说了一下设想。如果在我们组，连开题都不可能。

-------------------
[日志] 2009.04.09

　　上午与实验室的几位师兄去体育馆打羽毛球。

　　下午和晚上一直在等待预答辩，没想到师兄们一直都很忙，晚上11点多才开始点评我的中期报告。报告还有一些小问题，回寝改到凌晨2点。

-------------------
[日志] 2009.04.08

　　今天一直在修改中期报告PPT，晚上原定的预答辩被推迟了，师兄们都很忙。

2009年4月14日星期二

中国人的感情又被伤害了，这次是安全套广告

　　今天白天比较忙，临近晚饭时登陆qq，看到同学转来一则qq新闻链接，标题《德国广告商将毛泽东作为安全套广告主角华人气愤》甚是吸引眼球。好奇的点了进去，满篇都是熟悉的怨妇式文风。一看来源，果不其然：乃是以折腾粪青闻名的《环球时报》[1]。

　　文章并未给出广告的原始链接，只是配了一张截图。好在内容详尽，很容易从Google上搜到。原来这是一个展示创意广告的网站，备受争议的广告题为“莫里斯医生药店：毛泽东”（Doc Morris Pharmacies: Mao Tze-Tung），广告词为“乳胶安全套双保险装，所有莫里斯医生药店均有销售”（1 latex condom extra safe. Available at all Doc Morris Pharmacies）。除了毛版[2]，还有希特勒[3]和拉登[4]版，也许这才是最令国人受不了的。

　　对此感兴趣的朋友可以看看原始链接，热心的网友们已经用半生不熟的英文夹杂中文展开了讨论。与腾讯网的评论不同，这里分成了三派：左粪、右愤以及看热闹而又不失理性的人。以我个人的角度来看，这则广告还是很有创意的，从反响上评价也可以说是成功的，这种结果也许会超乎广告设计者的意料。

　　愚人节发布的联合公报表示中法关系又开始友好了，而中英两国的友谊也无法被“卑鄙的伎俩”所阻挡，所以，德国佬，只能委屈你们了。风水轮流转，现在是骂德国的时间。从某种意义上讲，中国人的感情太容易被伤害了，不过这种脆弱似乎只针对外国人。对于国内发生的种种不合理事件，国人表现的十分坚强，甚至到了麻木不仁的程度。

　　这是一种心理变态。

相关资料：
[1] 环球时报：德安全套广告以中国领袖为主角德专家驳斥. 2009-04-14. http://world.huanqiu.com/roll/2009-04/431827.html
[2] Doc Morris Pharmacies: Mao Tze-Tung. http://adsoftheworld.com/media/print/doc_morris_pharmacies_mao_tzetung
[3] Doc Morris Pharmacies: Adolf Hitler. http://adsoftheworld.com/media/print/doc_morris_pharmacies_adolf_hitler
[4] Doc Morris Pharmacies: Osama Bin Laden. http://adsoftheworld.com/media/print/doc_morris_pharmacies_osama_bin_laden

网友评论摘录：
Submitted by Guest on Mon, 2009-04-13 22:06.
An insult to the Chinese people is a price to pay.

Submitted by Guest on Mon, 2009-04-13 23:09.
As a Chinese I don not feel any insult, because MAO is really a murder a butcher who killed millions of Chinese people. That's the truth.

Submitted by Guest on Mon, 2009-04-13 23:48.
You can ask your parent, how many people were tortured to death, and how many many people starved to death in Culture Revelation.

Submitted by Guest on Tue, 2009-04-14 01:31.
It would be better if the ad is for spermatocide.

Submitted by Guest on Mon, 2009-04-13 21:28.10
为了报复德国人,我建议把马克思和恩格斯做成中国安全套商标!请广大愤青们顶起来！

2009年4月13日星期一

【毕设】每周情况-第7周

本周完成情况：

　　前几天对设计说明文档进行修改扩充，完成了中期报告文档的初稿。

　　在对维基百科提供的XML数据集进行研究，发现很多非常有价值的东西。这样就可以把这部分数据，以及包含了类别信息的Category数据库放在一起加以利用。这样一来，要对构建工具的设计模块进行修改，把第一个模块改为页面处理模块。以维基百科XML数据集为基础，爬虫根据实现情况放到次要位置或者搁置起来。另外，对维基百科的类别信息数据库进行了初步处理，可以实现简单的子类别查询功能。

　　周日晚上开组内交流会，汇报工作内容，讨论中期报告的相关问题。

存在的问题：

　　在数据库的导入过程中，由于源SQL文件巨大，用命令行导入费时费力。MySQL Administrator导入速度虽然快，却存在Bug容易假死。

　　编写抽取XML数据的程序，对于简单的XML处理很容易，但是处理数据量比较大、名字空间较复杂的维基XML时，总是发生错误，目前的解决方法差强人意，需要时间来调试。

下周计划：

　　修改中期报告文档和PPT，调试Web对象抽取功能的代码，准备中期答辩。

2009年4月12日星期日

科学发展观的英译

　　今天偶然看到，网友“三言两语”把China Daily的一篇文章《Scientific Outlook on Development》[1]翻译成了中文，发表在译言上[2]。原文很有意思，虽然是英语，却也通俗易懂，没有那种绕弯子的官话。

　　这引起了我的兴趣，于是便去查外国网站上关于科学发展观的文章，看看是否有易于理解的独到观点。不过，查了几个网页才发现，科学发展观的英译并不统一。2005年，人民网翻译成“Scientific Concept of Development”[3]，不过到了2007年，新华网关于十七大的新闻[4]采用的是“Scientific Outlook on Development”，应该是官方的译版。此外，BBC[5]、VOA[6]的报道里采用的都是这个版本。这样一来，维基百科翻译成“Scientific Development Concept”[7]就不算准确了，究其原因，也许是词条创建时间较早的缘故。

　　本来事情到此就应该告一段落了，但我又发现，在中国知网CNKI的翻译助手上搜索的结果[8]更有趣。网站提供这个功能的本意是把所有论文的中英文关键词及摘要作比对，并显示相应的词汇句子段落，帮助学者翻译好专业术语。不过，却无意中暴露出很多学者英文水平低下的事实。

　　摘录部分科学发展观的翻译如下：
scientific development view(1046)、scientific development concept(559)、scientific concept of development(464)、view of scientific development(403)、the view of scientific development(326)、scientific view of development(300)、concept of scientific development(300)、scientific development outlook(195)、scientific outlook on development(157) ...

　　正确的翻译scientific outlook on development只有157例，排在14名左右。而第二和第三位的版本由于历史原因，还算情有可原。但排在第一位的是最弱智的直译scientific development view，竟有1046例，这是很说明问题的。查看其来源，大多是党史理论研究的文章。如此想当然的翻译不仅说明学术态度不严谨，而且也相当于犯了严重的政治错误 ... 真是讽刺到极致。

相关资料：
[1] Celene编辑. Scientific Outlook on Development. 中国日报-英语点津, 2007-10-12. http://www.chinadaily.cn/language_tips/2007-10/12/content_6170884.htm
[2] 三言两语. 英译中-英语点津编辑的《科学发展观》. 2009-04-10. http://www.yeeyan.com/articles/view/wshijf/36560
[3] President Hu advocates scientific concept of development. 2005-04-18. http://english.people.com.cn/200504/17/eng20050417_181418.html
[4] Hu: Scientific Outlook on Development part of theories of socialism with Chinese characteristics. 2007-10-15. http://news.xinhuanet.com/english/2007-10/15/content_6883024.htm
[5] Chinese party unveils new leaders. BBC News: Asia-Pacific, 2007-10-22. http://news.bbc.co.uk/2/hi/asia-pacific/7055739.stm
[6] China's Communist Party Chooses New Leaders. VOA News, 2007-10-22. http://www.voanews.com/english/archive/2007-10/2007-10-22-voa5.cfm
[7] Scientific Development Concept. http://en.wikipedia.org/wiki/Scientific_Development_Concept
[8] CNKI翻译助手-科学发展观. http://dict.cnki.net/dict_result.aspx?searchword=%u79D1%u5B66%u53D1%u5C55%u89C2

2009年4月11日星期六

King of Fighters 12 街机版发售

【按：由于中国特色的盗版事业，使得KOF系列在中国积累了深厚的民众基础，不过这个基础仅限于97和98。从KOF12的画面来看，细节方面做得很足。但是个人感觉部分场景的色彩太过华丽了，是否影响到游戏对战，还要看视频才能判断。最后一张图显示，角色离近看会有锯齿。】

人气2D格斗游戏 KOF《格斗之王》（也叫拳皇）系列最新作《格斗之王12》的街机版于本日4月10日正式发售。《格斗之王12》采用TAITO公司开发的高性能街机基板TAITO TypeX2，无论是角色表现还是场景表现都将比前作大幅提高，将达到系列作品最强2D画面，角色动画演出效果也将更加流畅，必杀技等的表现也更加华丽。游戏的家用机版预定于2009年7月发售。

2009年4月10日星期五

读新闻-2009.04.10

【按：感觉这是对西藏问题的最准确分析。“在目前的国家制度和政治体制下，西藏问题基本无解。”其实也可以把“基本”换成“根本”。】

（BBC）西藏问题有解吗？
点评中国李大同 2009年04月07日
http://news.bbc.co.uk/chinese/simp/hi/newsid_7980000/newsid_7985400/7985440.stm

摘录：
问题在于"自治权"上。

正因为如此，无论达赖喇嘛如何声明自己是一个中国人，声明不寻求独立，声明愿意在中国宪法范围内实现藏民自治，中国政府还是不能答应，王顾左右而言他。在目前的国家制度和政治体制下，西藏问题基本无解。

也许，民族区域自治的制度安排根本就是错的，至少已经被证明是没有出路的。

2009年4月9日星期四

新的博客标题图

Akuma trains endlessly day and night on his fortress island Gokuentou.
豪鬼日夜不停地在狱炎岛上修行.

Unfortunately for Akuma, Gokuentou is gradually converted into an exclusive leisure resort...
很不幸, 狱炎岛已经逐步转变为一个高级休闲胜地. -_-!

Gouki: Mmm ! This island has been overrun by tourists ! It is no longer the ideal place for my training it once was !
豪鬼: 呣 ! 这个岛已经游客泛滥了 ! 它不再是曾经我修行的理想场所了 !

Thus Akuma journeyed forth from his island in search of new training grounds...
因此豪鬼离开了他的岛去追寻新的修行场所...

And so Akuma was led by Lei-Lei to an abandoned graveyard located deep within a forest...
所以豪鬼跟着Lei-Lei来到深山老林里的一个被遗弃的墓地...

Lei-Lei: How do you like it ? At night, you can practice your moves on the hordes of zombies that dwell here.
Lei-Lei: 感觉怎么样 ? 到了晚上, 你可以和住在这的大群僵尸们修行.

Gouki: Hmmm ! It might prove interesting to brush up my sure killing techniques on these zombies...
豪鬼: 呣 ! 我肯定这些僵尸碰到我的"杀意之波动"会很有趣的...

Gouki: Hyaaaaaaah !!!
豪鬼: 嗨呀呀... !!! (开始欺负可怜的僵尸了, T_T)

Having found the perfect place to train. Akuma's quest to become this world's mightiest warrior continues.
找到了理想的地方来修行后, 豪鬼要成为世上最强的战士的追求仍在继续着...

　　新的标题图来自Super Gem Fighter: Mini Mix （口袋战士: 迷你混战）。几年前我曾翻译过这个游戏的剧情[1]，当时截图都上传到最有名的Mofile网络相册，后来这个相册停止了免费外链，图片变成了一个个红叉。昨天再去看那网站，发现一个通知[2]，免费用户的图片竟都被删了，很多图片我还没有备份 ... 悲剧。之前的永久免费承诺在金钱面前显得脆弱不堪。

　　选择一个靠得住的网络服务提供商太难了，这也是我不愿意离开新浪的最重要的原因。不过新浪的靠得住也是相对而言的。举个播客的例子，新浪在今年大刀阔斧地删除了所有电视剧视频，怕日后引起版权纠纷。不过，我曾上传的超过2000的游戏视频不涉及版权问题，幸免于难。

相关资料：
[1] 其它版本街霸中豪鬼(Gouki/Akuma)的结局.http://blog.sina.com.cn/s/blog_4a9fe761010008qo.html

[2] mofile网盘和图片重要公告. http://photo.mofile.com/
告全体免费用户，一周后mofile将停止网盘和图片的免费服务，请各位免费用户在这一周内下载您的文件，4月4日点我们将永久删除免费用户的文件，如果您想升级为付费用户，请与一周内与客服联系。

思想汇报-2009.04.06

【按：最新的思想汇报 ... 】

思想汇报

敬爱的党组织：

　　下面汇报我近期的思想心得体会，主要包含两方面：我在学习科学发展观过程中的一些感悟，以及对时政的思考。

　　回顾最近的二十多年，我党体现出的一个鲜明特点就是理论的与时俱进。在此期间，党章被频频修改：十四大将建设有中国特色社会主义的理论和党的基本路线写进党章；十五大把邓小平理论载入党章；十六大增加了“三个代表”重要思想；十七大又加上了科学发展观、和谐社会和社会主义荣辱观。这些后提出的理论放在一起被称作中国特色社会主义理论体系。

　　邓小平理论抛弃了传统社会主义的阶级斗争，将重点放在经济发展。三个代表对私营企业家开放入党，是重大的革新，顺应了中国的发展现实。科学发展观注意到以前发展时暴露出的诸多问题，强调以人为本，试图实现全面、协调、可持续的发展。

　　然而，有人认为经济发展并不能解决中国的所有问题，社会公正和政治制度改革是中国长治久安的前提。和谐社会是一个很好的设想，但是有时候往往抹杀了真正的公平公正。而政治制度改革更是止步不前，十七大召开之前胡总书记亲自发表讲话否定了民主社会主义，今年年初，政协贾主席撰文要抵制西方多党制，人大常委会吴委员长作报告称绝不搞多党轮流执政、三权分立。这么多年过去了，领导人任期从终身制转为限任制似乎是政改唯一的成果。

　　除了理论学习，再谈谈对时政方面的想法。当今中国，狭隘的民族主义和爱国主义甚嚣尘上，甚至成为了我党统治合法性的基础之一，这不是什么好事。这里面国内媒体负有不可推卸的责任：从早年的反美反日，到后来胡编歪曲韩国的报道，以及近两年反法，再到近期的西藏问题、铜兽首炒作等事件上，这些媒体不断推波助澜，煽动、折腾愤青。

　　这样做是在玩火。仇恨式的教育和宣传令愤青们从小便丧失了独立思考的能力，在一些大是大非问题上做出令人啼笑皆非的判断。比如，愤青们经常为一些恐怖活动叫好，着实令倡导反恐的我国政府尴尬不已；中日正要回归蜜月期，愤青们却还在叫嚣抵制日货；去年，大批愤青宣称抵制家乐福，害得政府不得不发出倡议，号召以做好本职工作的方式爱国 ... 虽然在那次抵制活动中曾有过3名民警驱散几百名愤青的事例，却并不能排除愤青群体中没有极端分子的可能性。长此以往，或许会产生难以预料的后果。因此，国内媒体不该没事就折腾愤青玩，而应多报道一些客观的东西加以疏导。

　　恳请批评指正。

　　2009年4月6日

2009年4月8日星期三

【毕设】日志-2009.04.05-07

-------------------
[日志] 2009.04.07

　　上午修改中期报告文档，上传到FTP中，下午去参加了一个笔试。

　　对于数据库存储格式，暂时这样设计：

-------------------
[日志] 2009.04.06

　　今天主要在忙着写党员思想汇报和读书笔记，完成了中期报告PPT的初稿。

　　其中，对Web对象的抽取结果如下：

　　对Web对象间层次关系的抽取结果如下：

-------------------
[日志] 2009.04.05

　　下午得到通知，要完成毕设手册期中小结及以前的所有内容。此外，准备了晚上开组内交流会的PPT。

　　晚上开会，师兄通知了中期答辩的具体日期，是第8周周五，即4月10日。看来之前延期的美梦破灭了。经过与师兄们讨论，爬虫部分可以避免被砍掉。对于针对维基的关系库构建工具，要有一套相对完整的解决方案。维基百科提供XML数据集，但是其它的维基类网站未必提供，因此爬虫模块还是必要的。我已经设计并实现了针对维基类网站的页面爬取以及Web对象抽取的过程，可以保留下来。

　　因此工具的子模块改为页面处理模块，包括对XML处理和页面爬取两部分功能。

　　开完会，由师兄领着去找陈老师给毕设手册签字。老师提醒我们注意开题时曾被提问过的问题。

2009年4月7日星期二

《科学发展观学习读本》读书笔记

【按：昨天写完的，已经上交了 ... 】

深入学习科学发展观
——《科学发展观学习读本》读书笔记

　　学院党支部前些天传达了学习科学发展观的通知，要根据指定读本学习，并且上交读书笔记。发了一本书，叫做《深入学习科学发展观读本》，后来又给了《科学发展观学习读本》的电子版。到底针对哪本书来写读书笔记，着实令人头疼。

　　我上网查了一下，《科学发展观学习读本》早在2006年6月就有了，后来第二版出版于2008年8月，编者在题目加上了“深入学习”字样，即前面提到的那本。至于支书给的电子版，则是中共中央宣传部的最新作品，出版于2008年10月，在人民网有全文登载。再加上中共中央组织部和中共中央宣传部发布的通知[1]，应该是学习后者无疑了。写读书笔记，如果连书都搞错，那就白写了。

　　各大网站对《学习读本》的内容简介[2]里都写着这样一句：“全面准确地阐述了科学发展观的重大意义、深刻内涵和基本要求。”我认为这再次体现出本书的权威性，因为在同类书籍中，没有第二本书敢用这种描述。虽然本书只有80页（《深入学习》有190页），却句句精炼，是目前最重要的学习资料。

　　科学发展观是2003年10月中共十六届三中全会上提出的口号，强调以人为本，树立全面、协调、可持续的发展观。回顾历史，十五大把邓小平理论确定为党的指导思想，十六大“顺应时代发展要求和新形势新任务的需要”将三个代表写入党章后，十七大又“根据形势和任务的发展变化”把科学发展观写入党章。这体现了胡总书记提倡的科学发展观和毛、邓、江所提出的思想理论并排，进入一步奠定他中共第四代领导人的位置。

　　我粗略读了一遍《学习读本》，里面花了大量篇幅在解释一个隐晦的问题：为什么要提出科学发展观？从表面上看，是提出一种新思想来指导我们做各种事。但是往深处挖掘，就会发现它其实在暗指中国以前的发展都是“不科学”的。

　　是这样的，正是因为以前发展不科学，才要提出科学的发展观来指导发展。

　　当今世界，正统的社会主义国家只有朝鲜和古巴。它们都有共同的特点：穷；它们也有不同点：一个是父子继承统治，一个是兄弟继承统治。上世纪60年代，毛泽东思想指导下的我国痛斥苏修，试图延续正统。然而经过第一次解放思想，邓小平指出“贫穷不是社会主义”，开辟了具有中国特色的社会主义道路，不再理会是否正统。第二次解放思想过后，我党与时俱进的吸纳了私人企业家，代表了最先进生产力的发展要求，转化成“中国工人阶级、中国人民和中华民族的先锋队”。

　　前两次思想解放抛弃了传统社会主义的教条，创立中国特色社会主义理论体系，换来了中国的飞速发展。但这个发展过程片面追求GDP增长，忽视环保，忽视弱势群体，忽视社会文化建设，所以是不科学的。在这样的背景下，第三次解放思想，也就是科学发展观应运而生。弄清楚这些前因后果，才能更好的理解科学发展观。

　　回顾党的三次思想解放，每一次都是对之前理论的批判修正。如果用理论术语来说，就成了“是XX的继承和发展”。这样的事，还会继续下去。因此，我们现在既要争取全面领会现有理论，也要随时等待新通知、新精神、新指示的到来。

参考资料：
[1] 中共中央组织部中共中央宣传部关于认真组织学习《科学发展观学习读本》的通知. 2008, 9, 23. http://theory.people.com.cn/GB/68294/135509/135527/8140385.html
[2] 卓越网-科学发展观学习读本. http://www.amazon.cn/dp/zjbk800qei

2009年4月6日星期一

学校也喜欢愚人节

【按：学校有时候还挺逗 ... 】

《京华时报》：北航本科生签约率超过80% 研究生就业率超过90%
点击数:[500] 加入时间:[2009-04-01 09:02]
http://news.buaa.edu.cn/dispnews.php?type=5&nid=35621&s_table=news_txt
http://epaper.jinghua.cn/html/2009-04/01/content_406722.htm

《京华时报》2009年4月1日（周逸梅）报道：北航本科生签约率超过80%，研究生就业率超过90%。

记者昨天从北航“中英大学生就业教育与指导论坛”上获悉,包括上研的毕业生在内,目前北航本科毕业生签约率超过80%,研究生签约率超过90%。

据北航招生就业处处长程基伟介绍，北航目前的本科生签约率超过80%，其中工作签约占40%，考研或保研占40%。研究生目前的就业率更是超过了90%。学生就业率与去年同期相比基本持平，没有受到金融危机的影响。北航良好的就业形势来自于今年航空航天企业扩招以及大飞机计划启动。其中，中国航空工业集团在北航就招收了500名毕业生。

和北航不同，金融危机对中央财经大学的影响更大，该校目前研究生的就业率在50%左右，低于往年，不过本科生的就业率仍与去年持平。该校就业办的老师表示，这是因为研究生对就业的预期更高，更难调整心态。

编辑：贾爱平

【毕设】日志-2009.04.04

-------------------
[日志] 2009.04.04

　　Wikimedia Downloads[1]是维基百科自2006年起提供的一项服务，其中的XML数据集[2]聚合了网站页面内容，数据库文件重在为词条等提供编号。

　　由于加入了对XML处理的过程，要修改Web对象关系的抽取设计。

　　Web对象就是Web页面的基本数据对象，在此特指维基中的词条及其基本信息。获取维基中的词条名很简单，因为页面爬取得到的网页文件名或XML文件中的标题名即是维基词条名。为了增加知识库的完整性，也要有描述该词条的概述内容，这同样可以从分析关键标签的方法入手。下图是Beihang University词条页面，词条名与目录之间的部分就是概述。

　　对于HTML页面来说，词条名保存在wgTitle中，而概述一般处于词条名与Contents之间，将这部分信息单独抽出即完成了对Web对象的抽取。对于XML文件来说，词条名在文件的title标签信息中，概述一般存在abstract标签信息中。

　　为了满足项目的需求，还需要将英文词条与中文词条相对应。这里需要抽取XML数据集中的信息。每个词条的正文都以text标签开始，查找[[zh:XX]]项，就可以获取相对应的中文名。

相关资料：
[1] Wikimedia Downloads. http://download.wikipedia.org/
[2] L. Denoyer. The Wikipedia XML Corpus. SIGIR Forum, 2006.

订阅：评论 (Atom)