天水浪客的狱炎岛: 四月 2009

2009年4月29日星期三

【转载】PC版街头霸王4为Games For Windows Live作品

【按：水墨渲染还不错，总算达到了宣传片的效果。】

转自驱动之家作者：Zhengogo 2009-04-29 10:37:54
http://news.mydrivers.com/1/133/133574.htm

　　根据GameSpot的报道，卡普空已将PC版《街霸4》确立为Games for Windows Live作品，这意味着除成就、好友列表、联机对战、语音聊天外，该作将享有与主机版一致的后继DLC待遇，甚至公司可能会把市面上已发布的各种DLC内容与原作打包后以单一售价一并推出，毕竟迟到要有迟到的好处对不？

　　公司还许诺PC版支持更高分辨率及各类画面附加选项（与显卡类型相关），譬如水墨渲染及水彩渲染：

原效果

水墨渲染：

水彩渲染：

海报渲染：

　　GameSpot的编辑见证该作在一台高规格笔记本上跑得很顺，想来硬件要求应该不会太高。

　　《街霸4》将于今夏与PC玩家见面，卡普空在其官方论坛确认虽同为Live作品，且外设支持度相同（比如同样支持Mad Catz街机手柄），但PC玩家与Xbox 360玩家不能跨平台对战。

2009年4月28日星期二

【毕设】周报-第10周

本周完成情况：

　　前半周时间重写了SAX解析XML的程序代码，绕过了SAXParseException异常问题。实验室的服务器Redhat Enterprise Linux 5.3系统不如想象中好用，重装为Ubuntu 8.10，并安装了MySQL等软件，开始导入层次关系数据库。与毕设同组的同学讨论了接口的高级功能。

　　维基百科网站真正的类别根节点是Contents（页面分类），它的子节点包括Articles、Categories、Timelines、Lists、Portals等。Portals（主题首页）并不如原来所想的那么重要。而Articles是英文维基的第二层最重要的节点，所有的词条页面都在它下面。

　　每周例会上汇报了工作。与师兄们交流后，明确了下一步工作内容。关于类别关系权值的设定，我之前理解错了，需要重新设计。

存在的问题：

　　用SAX解析XML虽然占内存很少，但是解析速度并不快。维基的数据量巨大，想要全部解析完毕几乎不可能。目前想到的方法是把代码导入服务器，由服务器慢慢处理。

　　对高级关系抽取的判定方法理解不深，还需要与师兄们再讨论。

下周计划：

　　继续基本关系抽取，完成外部接口的高级功能。设计实体间高级关系的判别方法。

Ubuntu 9.04官方源速度稳定

Ubuntu 9.04，前些天刚出的时候我就装了。装完之后的第一件事就是上网查更新源，原本以为台湾或者美国的服务器会更快一些，但是事实证明目前最快的源竟然是官方的欧洲服务器源 ... 兜了个大圈子。

输入sudo gedit /etc/apt/sources.list后，更改源。

附上源列表[1]：

Archive.ubuntu.com更新服务器（欧洲，此为官方源，电信网通用户使用)：

deb http://archive.ubuntu.com/ubuntu/ jaunty main restricted universe multiverse
deb http://archive.ubuntu.com/ubuntu/ jaunty-security main restricted universe multiverse
deb http://archive.ubuntu.com/ubuntu/ jaunty-updates main restricted universe multiverse
deb http://archive.ubuntu.com/ubuntu/ jaunty-proposed main restricted universe multiverse
deb http://archive.ubuntu.com/ubuntu/ jaunty-backports main restricted universe multiverse
deb-src http://archive.ubuntu.com/ubuntu/ jaunty main restricted universe multiverse
deb-src http://archive.ubuntu.com/ubuntu/ jaunty-security main restricted universe multiverse
deb-src http://archive.ubuntu.com/ubuntu/ jaunty-updates main restricted universe multiverse
deb-src http://archive.ubuntu.com/ubuntu/ jaunty-proposed main restricted universe multiverse
deb-src http://archive.ubuntu.com/ubuntu/ jaunty-backports main restricted universe multiverse

相关资料：
[1] 9.04 source. http://wiki.ubuntu.org.cn/index.php?title=Template:9.04source&variant=zh-cn

2009年4月27日星期一

【毕设】日志-2009.04.24-25

-------------------
[日志] 2009.04.25

　　中午来到实验室，中文实体表已经抽取完毕。

　　修改了部分代码，开始从英文Abstract.xml抽取英文实体。为了方便后续工作的进行，打算把实体表分为三部分：实体编号表、中文摘要表、英文摘要表。因为英文词条页面的描述信息太杂，没有必要全部存到数据库中，只需要在基本关系抽取过程中进行分析。

遇到的问题：

　　最近比较郁闷，似乎没心情作毕设。还好现阶段主要在运行已写好的代码，利用这段时间好好调整。

下一步计划：

　　等待实体表全部抽取完，开始大规模抽取基本关系。

-------------------
[日志] 2009.04.24

　　上午有个面试，下午2点多才回来。代码方面进展还算顺利，正在大规模的抽取中文Abstract.xml存进wikikb.entityzh，争取今晚抽完中文实体，明天完成英文实体表。

　　晚上与同组同学讨论了接口功能，以及GraphML所需的数据结构。由于Graph算法的输入是标准的树形结构，具体需要如何处理还要继续讨论。

　　实验室其他组正在学习面向对象建模方法，我也顺便学习了用例图、活动图、状态图等画法，写论文时会用到。

遇到的问题：

　　基本关系抽取必须要等英文实体表完成才能开始。目前仅针对测试数据（卢旺达语），正文中的基本关系较少。

下一步计划：

　　完成Web对象的抽取，开始测试基本关系抽取的代码。

2009年4月26日星期日

【存照】《关于中国核试验的代价》已被新浪移到回收站

　　很久都没发生过这种事了，起码最近的一次是在1月份。

通知 2009-04-23 01:30
您的文章《迷茫：关于中国核试验的代价 ...》已被管理员转移到回收站。给您带来的不便，深表歉意。

　　新浪博客的草稿箱功能变了：以前只要按“保存到草稿箱”，就可以创建出一个备份来；现在只要按了“发博文”，草稿箱保存的版本自动消除。这一点倒是和网易邮箱有些像，也许是为了减少服务器硬盘的开销。这样一来，文章被移至回收站，草稿箱里也没有备份，似乎只能“恢复文章”，不过这么做又明显是在与管理员作对。

　　还好Blogger那边限制较少，这篇文章也还在[1]。其实也不算是文章，只不过是贴了点搜索结果，给出的也都是大型网站的原始链接[2]，并非谣言。另外，把新浪的通知单拿出来写篇博文，并非出自被管产生的逆反心理，只是想存个照罢了。把这些东西留给历史吧 ... 它们都是见证。

相关资料：
[1] 迷茫：关于中国核试验的代价. http://goukijiang.blogspot.com/2009/04/blog-post_22.html
[2] The Sunday Times. Revolt stirs among China’s nuclear ghosts. 2009-04-19. http://www.timesonline.co.uk/tol/news/world/asia/article6122338.ece

2009年4月25日星期六

再说该管管“不需要管”之人，兼回“潇洒一生”

　　之前看过BBC的一篇文章[1]，觉得论证离题，便在博客里随意写了篇文章[2]。不曾想作者亲临，很正义的教育了在下一把。以下蓝色字体为评论全文，“【】”内为在下所加评注。

潇洒一生： 2009-04-24 13:50:21

文章是我写的，发了几家媒体，说明还是有人支持。你去看看该新闻背后的网友评论，绝大部分都是支持的【真的吗？为什么港台骂的更狠？他们为什么要骂，仅仅因为被批“太自由而乱”？】。我也许断章取义【承认断章取义，就是承认跑题，后面说的再多也没意义】，但就这一句话而言，如果你说错了，我建议你去进学校再去学学法律常识抑或哲学知识【在哪里能看到我说这一句话“错了”？这句话拿出来连韩寒都无法反驳：“我觉得成龙这句话看似简单随口，但有着其逻辑上的不可反驳性，也是我写文章这么久第一次遇见这种情况。”拿法律和哲学压人，这是不是“倚老卖老”？】。退一步说，如果一个人不能容忍他人一句“错话”，动辄大骂或竭力抵制，我看这个的心胸也够令人无语的了【离题了，在下的博文并未涉及此话题。如果先生感到无语，不如多写些文章教育那帮抵制家乐福的粪粪】。我本想查查你的资料，但查不出来【我文中引用的，都是你在大型网站发表的文章以及自己署的名字，并非你的个人资料，与低劣的人肉搜索八竿子打不着】，看文章应该是“上了年纪”的——身未老，心理老了【同意，大概是因为被管多了。看个BBC都要翻墙，能不累么。人被管多了，也许会“爆炸”的】。我一向十分尊重长辈，但我也讨厌一个长辈倚老卖老【我文中称成龙为“大哥”，称作者为“邓先生”，是谁在倚老卖老？】，“中学生的三段论去论证”没什么不好的【哪里能看出我文章说三段论不好？不够严谨的三段论容易得出错误的结论，仅取此意而已。先生整篇文章仅在一句话上纠缠，也是一种断章取义】，如果你觉得学生太幼稚，那也许源自于你没上过学【此处乃臆想式论断，本不值一辩，但仍想好言相告：以这种逻辑，亦可说成“如果你觉得学生不幼稚，那也许源自于你正在上学”】。

　　最后摘抄韩寒博文[3]的最后一段，与先生共勉。

　　“至于有些网友认为，中国人的确需要管理，要不然真的会很乱，我认为这是在偷换概念。任何国家任何星球的人都需要管理，但管理他们的，不是思想，不是制度，不是文化，不是宗教，不是意识形态，不是上级部门，而是合理的法律和尽量的公正。人民需要的是被服务而不是被管理，而官员最需要的是被管理而不是被服务，我们很多地方不和谐是因为我们不小心给整反了。”

相关资料：
[1] BBC-中国人谈中国: 该管管“不需要管”之人. 2009-04-23. http://newsvote.bbc.co.uk/chinese/simp/hi/newsid_8010000/newsid_8014200/8014205.stm
[2] 也说该管管“不需要管”之人. http://blog.sina.com.cn/s/blog_4a9fe7610100d82d.html
[3] 韩寒. 像成龙一样学会揣摩圣意. 2009-04-21. http://blog.sina.com.cn/s/blog_4701280b0100cupe.html

【毕设】日志-2009.04.22-23

-------------------
[日志] 2009.04.23

　　下午重写了SAX解析XML的代码，总算绕过过了之前的问题。现在想想，也许是因为标签开始事件和结束事件的响应函数写的不一致导致的SAXParseException。目前已能方便的处理维基的XML。

遇到的问题：

　　由于不断的修改SAX解析的函数，把存进MySQL的代码弄乱了。理不清执行的逻辑顺序，需要时间去整理。

下一步计划：

　　抓紧时间完成本周任务。

-------------------
[日志] 2009.04.22

　　中午来到实验室，无法启动服务器的MySQL，考虑到RHEL诸多不便，索性把服务器的系统重装为Ubuntu 8.10。下午配置服务器，安装了MySQL Administrator和MySQL Query Browser，处理起来比较方便。服务器的第二块硬盘设为LVM分区：

buaa@buaa-desktop:~$ sudo fdisk -l
[sudo] password for buaa:

Disk /dev/sda: 250.0 GB, 250059350016 bytes
255 heads, 63 sectors/track, 30401 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x000e4693

Device Boot Start End Blocks Id System
/dev/sda1 * 1 29646 238131463+ 83 Linux
/dev/sda2 29647 30401 6064537+ 5 Extended
/dev/sda5 29647 30401 6064506 82 Linux swap / Solaris

Disk /dev/sdb: 250.0 GB, 250059350016 bytes
255 heads, 63 sectors/track, 30401 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x0006b527

Device Boot Start End Blocks Id System
/dev/sdb1 * 1 30401 244196001 8e Linux LVM

　　晚上与曹同学讨论了他急需的接口功能，包括多层次的数据查询、实体间关系查找等。开始向服务器的MySQL中导入SQL数据库。

遇到的问题：

　　修改my.cnf文件试图获得MySQL数据库的访问权限，但运行本机代码未能成功连接服务器。SAX解析XML发生的错误仍未解决。

下一步计划：

　　改写抽取Web对象基本关系的代码，并实现获取多层（2-4）子类别信息的功能。

2009年4月23日星期四

也说该管管“不需要管”之人

　　成龙说了句“中国人是需要管的”，结果这几天挨了不少骂，几乎是一边倒的喷。

　　不过，也有特殊的，BBC的中国人谈中国栏目，今天就有个署名“中国湖北邓子庆”发了篇文章《该管管“不需要管”之人》[1]，巧妙的将论题转到“人，既然是社会的人，就必定是要被管的。不仅是中国人要被管，各国人都要被管，否则国将不国人将不仁。”，然后用中学生的三段论去论证“无规矩不成方圆”了。最后得出结论：“作为青年队伍的一员，笔者想说的是，我是中国人，我是需要被管着的，因为我相信，管因爱而生。如果你不想被管，你迟早会被社会所抛弃。”让人觉得莫名其妙。

　　在网上大概搜了一下，这位邓先生还是写过不少文章的，大多发在荆楚网上，同时也是BBC中国人谈中国的常客。这些时评文章的观点也算尖锐，不过今天这一篇的水平确实不怎么样，也许他也没看过成龙讲话的原文。成龙一共讲了五分钟，网上的视频大多是娱乐新闻的片段。韩寒在第一时间发布博文《像成龙一样学会揣摩圣意》[2]，有网友立即以韩寒没看全原话为由写了篇《像韩寒一样学会断章取义》[3]作为回击。

　　有人上传了整个采访过程的视频[4]，我认真看了一遍，感觉成龙大哥确实不会讲话，也难怪会被人抓到把柄。不过，把那句著名的“香港台湾因太自由而很乱，中国人需要管”单独抽出来，也算不得断章取义。而邓先生的那篇文章则是离题万里，批错了对象。在我国，一直认为自己“不需要管”的乃是某些政府部门和官员，依我看，不如管管他们。

相关资料：
[1] 邓子庆. BBC-中国人谈中国: 该管管“不需要管”之人. 2009-04-23. http://newsvote.bbc.co.uk/chinese/simp/hi/newsid_8010000/newsid_8014200/8014205.stm
[2] 韩寒. 像成龙一样学会揣摩圣意. 2009-04-21. http://blog.sina.com.cn/s/blog_4701280b0100cupe.html
[3] 像韩寒一样学会断章取义. http://www.21r.com.cn/index.php/group_thread/view/id-10819
[4] 新浪播客-成龙批港台，自由多太混乱. http://you.video.sina.com.cn/b/20070706-1439423814.html

2009年4月22日星期三

【毕设】日志-2009.04.20-21

-------------------
[日志] 2009.04.21

　　今天上午去上地参加一个笔试，下午两点多才回来。晚上与大三的学弟一起配置服务器，越弄越乱 ...

　　上周末开会时，师兄提到一种为关系添加权值的方法，而且要把关系实例表分为实体间关系和类别间关系两种。整理一下思路，发现这种方法也很难实现。例如，熊猫吃竹子，单纯考虑熊猫属于动物类别，竹子属于植物类别，把上层类别的关系权值增大。继续分析类似的基本关系，最终这种动物吃植物的关系权值会达到很大的数目，可以作为判别高级关系的依据。不过这些只能是理想化的分析，实际上无法做到这种效果。原因就在于，维基百科是众多网友编辑而成的，严格去评价的话，里面的内容不够规范。比如，熊猫词条（Giant Panda）的上层节点是这样的（只选择一条路径）：Giant Panda -> Mammals of China -> Mammals of Asia -> Mammals by geography -> Animals by geography -> Animals -> Zoology -> Biology -> Natural sciences -> Nature -> Main topic classifications -> Articles -> Contents。也就是说，比较有用的Animals类别与Giant Panda实体的距离非常远，而且按照别的路径来走还未必能走到Animals。

　　上次和同组同学分析层次关系数据库时错认为Portals是维基的根节点，今天我又仔细的核对了一下，发现少算了一层。维基百科网站真正的类别根节点是Contents（页面分类）[1]，它的子节点包括Articles、Categories、Timelines、Lists、Portals等。Portals（主题首页）[2]并不如原来所想的那么重要，里面包含了如Culture portals、History portals、Science portals、Society portals等各个领域的子类。不过，网友也可以创建独特的Portals，中文维基的Portals页面很乱，有一些小领域也被加进首页（如“多啦A梦”、“篮球”竟被放在二级目录），英文维基要好一些。而Articles[3]是英文维基的第二层最重要的节点，所有的词条页面都在它下面。中文维基的根节点与Articles很像，却不同于Contents。

遇到的问题：

　　Redhat Enterprise Linux 5.3的DVD集成了很多软件，但是安装的位置很乱，很难按照网上的教程进行进阶配置。比如MySQL服务的自启动仍未实现；大三的学弟装Apache、PHP时也遇到了一些问题；另一位学弟调试了很长时间也无法从服务器数据库取到数据。

　　很多想法只停留在设想阶段，实现相关功能时总会遇到各种问题，不得不砍掉一些设计，因此也耽误了进度。

下一步计划：

　　这两天花在毕设的时间不多，精力浪费在服务器的一些小问题上。暂时搁置服务器的问题，继续写代码。实在不行就装回Ubuntu，起码软件应用的问题会少点。

相关资料：
[1] Contents. http://en.wikipedia.org/wiki/Category:Contents
This is the root, or top level, of Wikipedia's category system. Its subcategories contain encyclopedia articles as well as project pages. Pages do not appear in this category directly, only in its subcategories (or, more likely, in further subcategories of those).
页面分类（中文维基根节点与英文不同，更像是英文的Articles页面）：这里是维基百科页面分类系统的最高级，所有分类皆可从此进入。分类方式系“依学科分类”，主要参考杜威十进制图书分类法的学科分类方法；不足之处，则参考中国图书分类法及赖永祥中国图书分类法作适度调整。
[2] Portals. http://en.wikipedia.org/wiki/Category:Portals
This category contains the English Wikipedia's portals. A portal is a focus page which highlights a particular subject, to complement the main article on that subject. Portals feature articles covering the portal's theme, and generally provide lists of related articles, and thus provide an alternative means to browse on Wikipedia.
主题首页（中文维基Portals不如英文规范）：主题首页是为对某一领域的知识感兴趣的维基人及一般读者提供的首页，用于帮助查找该主题的资料，并扩充与该主题相关的条目。一个维基主题可与一个或多个专题相连。
[3] Articles. http://en.wikipedia.org/wiki/Category:Articles
This is the highest-level category for all articles in Wikipedia. Articles do not appear in this category directly, but at lower levels in its hierarchy of subcategories.

-------------------
[日志] 2009.04.20

　　上午有个笔试，下午陪同学去了一趟中关村，晚上6点半参加一个软件公司的宣讲，快9点才结束。

　　将Category表项导入了服务器的数据库，为MySQL设置密码，mysqladmin -u root -p "123456" ，暂时先这样。另外，安装了PuTTY[1]，试用了一下，不大方便。

遇到的问题：

　　暂时没能为MySQL设为自启动，网上的一些方法都试了还是不行。

下一步计划：

　　这几天很累，尽快调整状态，有效开展工作。

相关资料：
[1] PuTTY: A Free Telnet/SSH Client. http://www.chiark.greenend.org.uk/~sgtatham/putty/

迷茫：关于中国核试验的代价 ...

　　刚在BBC上看到这个新闻，又跑到Times Online上搜到了原文，看来是有些依据的。对于两弹，我们还应该引以为傲吗？暂时没想明白，不知该说什么好 ...

【04.22补：美国之音也发布了报道，也许是解密了。】

相关资料：
[1] BBC. 中国核试验的代价. 2009-04-21. http://newsvote.bbc.co.uk/chinese/simp/hi/newsid_8010000/newsid_8010300/8010327.stm
星期天的《泰晤士报》用一整版报道了中国几十年试验原子弹所造成的生命代价。报道说大约有19万中国人死于中国的核武器试验。根据最新的研究显示，中国从1964到1996年的核武试验所导致的死亡人数比世界上任何国家的人数都要多。

[2] The Sunday Times. Revolt stirs among China’s nuclear ghosts. 2009-04-19. http://www.timesonline.co.uk/tol/news/world/asia/article6122338.ece
Up to 190,000 may have died as a result of China’s weapons tests: now ailing survivors want compensation. Additional reporting: Shota Ushio in Tokyo and Imogen Morizet in Washington.

[3] 星洲日报. 《泰晤士报》引述日本研究：祸延几代中国核试19万人致癌. 2009-04-20. http://www.sinchew.com.my/node/110821?tid=2

[4] VOA. 报道称中国十九万人或受害核辐射. 2009-04-20. http://www.voanews.com/chinese/w2009-04-20-voa38.cfm

2009年4月21日星期二

【毕设】日志-2009.04.18-19

-------------------
[日志] 2009.04.19

　　中午来到实验室，整理了一下本周的工作，完成了这周工作汇报的PPT。另外，调试了一下以前的代码。晚上开会，关于数据库结构的两个小问题没有在PPT上体现出来，口头描述费了挺大劲才说清楚。会上明确了下周工作计划。

　　按照网上的方法，在 /etc/rc.d/rc.local 文件的最后加上： /bin/safe_mysqld --user=mysql & ，仍未实现RHEL5.3环境下MySQL服务的自启动。

遇到的问题：

　　使用WikiObjReader代码抽取英文XML时，依然遇到 org.xml.sax.SAXParseException 问题。此外，通过转换编码到Unicode也不行，排除了文件编码的原因。

下一步计划：

　　下周最重要的是先把数据库导入到服务器上，同组同学急需。

-------------------
[日志] 2009.04.18

　　中午来到实验室，发现昨晚安装的RHEL5.3无法进入图形化界面，xorg没有装上。于是重装了一次，在定制软件的时候把所有与xWindows和xorg的包都勾选上。安装过程耗时半小时，重启后成功进入Gnome。一开始没能启动MySQL，后来通过 service mysql start 命令启用mysql服务，可以成功使用MySQL了。

遇到的问题：

　　服务器备份的原数据暂时没有导入。

下一步计划：

　　准备周日晚上开会需要的PPT，整理本周完成的工作。

【毕设】周报-第9周

本周完成情况：

　　之前使用JDOM包来处理XML，但这种方式不适合规模巨大的XML文件。后来转用SAX重写了Web对象抽取及插入数据库的部分代码。SAX（Simple API for XML）是一种古老的XML处理方案，它从上到下一行一行的读入文件，基于事件处理方式边读边解析。与毕设同组的同学一起讨论了获取数据库的实现方法，完善了接口功能的设计。

　　为实验室的服务器重装Redhat Enterprise Linux 5.3系统，导入部分数据到MySQL数据库中，方便后续开发者使用数据。为数据库设计了关系描述表和关系实例表，作为补充。

　　周日晚上开会汇报了本周的工作。与师兄们交流后，明确了下一步工作内容。上周我们组毕设中期答辩的效果还算不错，受到师兄的表扬。本周进度勉强算可以，但是需要加强危机意识。

存在的问题：

　　弃用JDOM方法，转用SAX耽误了很多时间和精力，部分工作相当于白做。这种问题出现的原因在于前期调研不够充分，被网上某些教程误导。今后要避免这种情况再度发生。

　　用SAX解析XML并不如想象中容易，遇到的问题都与XML数据量过大有关。如org.xml.sax.SAXParseException等，还需要再研究。

　　服务器RHEL5.3系统里集成的MySQL不好用，连接时出现超时的问题。

下周计划：

　　继续基本关系抽取，完善外部接口功能，尽快处理好服务器的数据，解决连接问题。

2009年4月19日星期日

做人肉叉烧包的影帝指责肯德基虐鸡

　　在食堂吃晚饭时，电视里播出娱乐节目，说黄秋生给某快餐连锁集团写信要求停止虐鸡。本以为是新闻，回来一查，竟是两个月之前的事[1]。想想中国校园视频的效率，还真符合它的一贯风格。

　　下面说说这个虐鸡的事。黄秋生给肯德基母公司百胜集团总裁David Novak的信是中文的[2]，我上网查了一下，没有关于Novak总裁精通中文的资料。那么，可以初步认定此事是炒作，这信也是写给中国人看的。

　　信中写道“鸡的好奇心很强，而且非常有趣。它们能够理解复杂的智力概念，通过观察其它鸡来学习，表现出很强的自制能力，甚至拥有世代相传的文化知识。”看起来很美，却充斥着模糊的用词及描述，只能骗骗小孩子罢了。

　　有关肯德基的谣言在网上流传很广，辟谣的资料也不少。关于虐鸡，那个善待动物组织PETA声称掌握了很多证据，而且还录制了煽情的广告[3]。不管这个是否真实，起码黄秋生的信有很多不实之处，针对这些已经有网友作了很合理的驳斥[4]。

　　凭借《八仙饭店之人肉叉烧包》[5]（1993年）取得第13届香港电影金像奖最佳男主角的黄秋生，“变态和暴力是他影片的一大类型”。习惯了在电影里虐人的影帝，却去教餐饮公司如何善待鸡，讽刺之至。

　　看看新浪娱乐的黄秋生页面[6]，写信事件之后的新闻大多与一部叫做《金钱帝国》的电影有关，这难道不是他炒作的确凿证据么？

相关资料：
[1] 重庆时报: 黄秋生写信致肯德基总裁要求其停止虐鸡. 2009-02-27.
http://ent.sina.com.cn/s/h/2009-02-27/05202393929.shtml
[2] 新浪娱乐: 黄秋生致信肯德基总裁促请残忍虐鸡全文. 2009-02-26. http://ent.sina.com.cn/s/h/2009-02-26/15462392990.shtml
[3] Kentucky Fried Cruelty The Movie - Torture Camp. http://www.kentuckyfriedcruelty.com/f-kfc_fried_videos.asp
The trailers and accompanying descriptions are a fictional dramatization inspired by true events.
[4] 游客2350072 在2009年2月28日 12:53说.
http://laiba.tianya.cn/laiba/CommMsgs?cmm=6293&tid=2653450032627680368&ref=commmsgs-paging&na=3&nst=51&pno=2&cpno=1&nid=20973-2653450032627680368-2653799239239897849
[5] 百度百科-人肉叉烧包. http://baike.baidu.com/view/178365.html
[6] 明星全接触-黄秋生. http://ent.sina.com.cn/s/h/f/huangqs/

【毕设】日志-2009.04.16-17

-------------------
[日志] 2009.04.17

　　下午与马师兄讨论了当前的一些问题。昨天抽取中文abstract-zh-cn.xml时，程序报错说没有anchor标签没有结尾：[Fatal Error] org.xml.sax.SAXParseException: 2053:210: The element type "anchor" must be terminated by the matching end-tag "/anchor".。今天在师兄的帮助下，初步判定不是XML的问题，也许与汉字编码有关。另外，我用容器来处理每个子节点内容的方法也被师兄认为是不必要的，甚至会造成程序的崩溃。究其原因，是我对SAX的理解不够深入。

　　为了把数据库导入到服务器上，大三的学弟把服务器机箱从学校机房搬到实验室。按照周师兄的要求，需要为其重装RedHat Enterprise Linux系统。但是服务器的Ubuntu 8.10系统出了点问题，开机只能启动命令行界面，用startx命令也无法进入图形化界面，这样一来就很难在重装之前导出数据来备份。后来借助Ubuntu的LiveCD进入系统，成功的导出了文件。从网上下载了RHEL5.3 [1]，以及FTP上的4.6，都刻了盘待用。

　　晚上改写了数据库插入的代码，减少了数据库连接次数，运行速度提高了很多。

遇到的问题：

　　如果在SAX解析器中加入Web对象基本关系抽取的代码，不知效率会不会很慢。

下一步计划：

　　完善数据库格式设计，包括关系实例表的设计、解决实体与类别表的冲突等。

相关资料：
[1] Redhat Enterprise Linux V5 UPDATE 3下载地址：http://ftp.wallawalla.edu/pub/isos/ISOS/redhat/rhel/5.3/rhel-server-5.3-i386-dvd.iso 注册码2515dd4e215225dd仅限安装，无法更新。

-------------------
[日志] 2009.04.16

　　中午来到实验室，继续写SAX处理XML的代码。下午实现了对abstract.xml中title、url、abstract，pages-articles.xml中title、id、text标签内容的抽取。晚上对代码进行修改，可以将抽取到的字符串存入数据库相应的表项。另外，马师兄回复我昨天的邮件时提到，“把mysql的程序目录连其数据及其copy下来，将来恢复时简单的在文件系统里覆盖源文件就可以，就不用再导入数据”。作了一下实验，是可行的，但初次的数据时必须导入完全。

遇到的问题：

　　维基提供的XML太过巨大，因此频频遇到新问题，而在测试时都不曾见到（测试采用Kinyarwanda卢旺达语版）。

　　比如在处理zhwiki-20090116-abstract-zh-cn.xml时，竟然会出现[Fatal Error] :10:199: The element type "anchor" must be terminated by the matching end-tag "/anchor". 是说这个XML里有一处anchor标签没有结束项，而用另一种逐行解析的代码就没有问题。另外，在把抽取结果存储进数据库的时候，也会出现一些小错误，是由于卢旺达语比较怪异的字符引起的。java.sql.SQLException: Incorrect string value: '\xE8\x8C\x85 na...' for column 'ent_abs' at row 1. 英语应该不会出现这种问题。

下一步计划：

　　这周进度有些慢了，被一些小问题纠缠。明天开始Web对象简单关系抽取，设计新的数据库表项，包括上次开会提到的关系描述表、关系实例表。

2009年4月18日星期六

JDOM解析XML方法小结

【按：JDOM是解析XML的JAVA工具包，但是无法处理大文件，超过上百兆的XML最好用SAX来解析。虽然最终选择了古老的SAX方法，但JDOM的简便也给我留下了深刻的印象，特将调研和编码过程中的心得整理出来。】

// jdom处理XML，page是主要节点，包含id、name等子节点

import java.io.*;
import java.util.*;
import org.jdom.*;
import org.jdom.input.SAXBuilder;

public class JdomReader {
　　public static void main(String[] args) throws IOException, JDOMException
　　{

　　　　String filename = "D:/test.xml";

　　　　SAXBuilder builder = new SAXBuilder();
　　　　Document doc = builder.build(new File(filename));

　　　　// 取根节点
　　　　Element root = doc.getRootElement();

　　　　List list = root.getChildren();
　　　　System.out.println("节点个数为:" + list.size());

　　　　Iterator i = list.iterator();
　　　　while (i.hasNext()) {
　　　　　　Element page = (Element) i.next();

　　　　　　// 取page的子节点，涉及到复杂的名字空间
　　　　　　System.out.println(page.getChild("id", page.getNamespace()).getText());//.getName());//
　　　　　　System.out.println(page.getChild("name", page.getNamespace()).getText());
　　　　}
　　}
}

-----------------
相关资料：
[1] JDOM官网（包括下载与文档）. http://www.jdom.org/index.html
[2] JDOM使用详解及实例. http://blog.sina.com.cn/s/blog_4b4cb0690100094a.html
[3] java解析xml（jdom）. http://hi.baidu.com/sunxiangwei/blog/item/6a0a3ff36d04c657352accf1.html
[4] 百度百科-JDOM介绍及使用指南. http://baike.baidu.com/view/1569983.htm
[5] jdom例子程序. http://hi.baidu.com/feiyuyitiao/blog/item/861ab32bc7bdb2fbe6cd40d9.html
[6] jdom实例-利用jdom读取xml文件实例代码. http://www.zxbc.cn/html/20071129/29876.html
[7] java解析xml文件四种方式. http://blog.163.com/howl_prowler/blog/static/266197152008426111858717/

【毕设】日志-2009.04.14-15

-------------------
[日志] 2009.04.15

　　上午去图书馆查了几本关于MySQL的书。中午来到实验室，调试以前的Web对象抽取代码。

　　在网上调研相关资料时，发现了JDOM处理大XML报错的原因，跟我之前想的一样，是JAVA虚拟机空间不足的问题。JDOM是基于树型解析，它解析的时候会把整个文件读入内存，然后遍历所有标签，生成子节点列表。这种解析方式在处理小文件时有着很高的效率，可是遇到大文件就无能为力了。SAX（Simple API for XML）是一种古老的XML处理方案，它从上到下一行一行的读入文件，边读边解析。它是基于事件处理的（遇到每个标签都要有相应的处理），使用起来很麻烦，但似乎是目前处理超大XML文件的唯一办法。通过查找相关的示例源码，暂时实现了对超大XML的简单抽取。SAX不理会标签的名字空间（JDOM对名字空间的要求很高），因此只适合读取XML，不适合修改。

　　调试代码的过程中有个小问题，setContentHandler的输入参数不正确，困扰很长时间。后来才发现忘了继承DefaultHandler父类。

遇到的问题：
　　Web对象抽取的代码还需要继续重写，这次又走了点弯路。当初调研的时候不够认真，看到网上对JDOM评价很高，示例源码也多，而且有的使用心得介绍JDOM处理大文件也很方便，就没有再去查DOM、SAX这些古老的东西。现在想来，差点被害死。

下一步计划：
　　数据库最好导入到服务器上，明天与大三的周学弟商量一下看如何解决。

相关资料：
[1] SAX. http://www.saxproject.org/

-------------------
[日志] 2009.04.14

　　今天上午参加了一个笔试，下午才回来。读了实验室项目OlympicVis处理XML和数据库的相关代码，并把包含了层次关系的数据库传给同学。

　　晚上调试了一下曹同学连接数据库的代码，发现数据库配置文件database.properties里的变量名与程序不符。修改好配置文件后，数据库可以连接成功。然后与曹同学一起讨论树的层次关系的实现，维基百科的Category类别根节点是Portals（门户入口），其下的子类都是各个领域的名称，比如Culture portals、Science portals等，其中Culture portals又包含Culture、Food等，Culture中又包含Arts、Civilization等子类 ... 如此查下去，似乎可以得到一颗很漂亮的领域树。不过这里面仍然有可导致循环的层次关系，这是由于维基百科的编辑者都是很多普通网友，某些人对层次关系的定义并不严谨。

遇到的问题：
　　层次关系中存在的错误定义（树变成了图）随着数据库规模的增大，有可能导致严重的问题，目前没有想到更好的解决办法，只能说是维基百科的局限性。

下一步计划：
　　与曹同学讨论数据获取的过程中，对接口模块有了一些新的思路。明天去图书馆借点数据库开发的书，特别是批处理等功能，也许会提高接口模块的效率。

2009年4月17日星期五

【毕设】日志-2009.04.13

-------------------
[日志] 2009.04.13

　　上午整理文档。下午重写了Web对象抽取的代码。解决了text子节点内容抽取时空指针异常（java.lang.NullPointerException）的问题，因为维基的XML名字空间复杂，只有获取正确的名字空间才能抽取到标签的内容。

　　确认了数据库categorylinks表中cl_from项编号含义，的确是cl_sortkey（子类、子实体）的id号，而且此编号也确实不是唯一的。这是因为我之前错把cl_from看作了主键，仔细看categorylinks的SQL建表语句，里面只是限定了一种约束：UNIQUE KEY `cl_from` (`cl_from`,`cl_to`)，并没有提到PRIMARY KEY。例如，在中文的类别信息中，查到跟“天安门广场”有关的数据如下：(4118,'世界之最','天安门广场',20071031041840),(4118,'北京','天安门广场',20071031041840),(4118,'广场','天安门广场',20071031041840)，4118就是“天安门广场”词条的唯一id号，与XML中的标签一致。

遇到的问题：

　　目前实验采用的是数据较少的Kinyarwanda（卢旺达语）版（如下图），但是在处理英文维基时，会发生错误，可能是数据量太大超过了某些变量原有的空间限制。

　　试着将一些中文数据导入数据库，但是显示的时候成了乱码。数据库配置文件my.ini中的default-character-set改为gbk和utf8都不行，不知如何解决。

下一步计划：

　　明天上午要参加一个笔试。争取完成将抽取到的信息存进数据库的功能；另外，再试试可否解决英文XML处理的报错问题。与曹俊超同学一起学习可视化工具获取数据的方法，并着手编写相关代码。

中国又强大了一回 —— 德国广告公司道歉

　　继发表《德安全套广告以中国领袖为主角德专家驳斥》[1]和《德侮辱已故中国领袖安全套广告激怒中国网民》[2]后，环球时报又在今天发布了后续报道《海外华人强烈不满德公司为侮辱中国领袖道歉》[3]，算是为“德国辱华”事件划上了一个完美的句号。报道指出，中国驻法兰克福总领馆因为此事正式出面交涉，使得德国第二大广告公司Grey Worldwide的CEO递出了道歉信。

　　我登陆了原来的页面[4]，Doc Morris Pharmacies: Mao Tze-Tung广告果然已被撤下。页面里只显示“requested page not found, Continue to Ads of the World home page or search for the content you're expecting to see on this page.”。一同被撤的，还有Adolf Hitler和Osama Bin Laden。要上三个人都上，要撤就一起被撤，其实粪青们应该继续抗议Grey Worldwide公司这种撤广告的方式。当然，更有可能的是，他们不知道也不想知道原始链接的页面是什么样的。

　　从事后的反响可以看出，部分国人因为中国的又一次强大而感到欢欣鼓舞：在“德国热线”华人论坛上，一名网友说，从此事可以看出西方一些机构的“小丑行径”。还有的网友说：“看到道歉信，我对祖国日益强大的国力感到无比自豪。在过去，帝国主义向我们道歉是完全无法想象的。”

　　其实这位网友大可不必感到自豪，在Google中输入“正式道歉”关键词，返回的2,280,000项结果有90%以上都是外国政府、公司或个人向中国人民道歉的新闻网页。过多的道歉只会让局外人觉得中国人民是个惹不起、也躲不起的群体 —— 连一个普通的广告创意页面都能被扒出来。

　　中国人民如此擅长“不高兴”，就是那种小屁孩在地上滚来滚去叫嚷着“我不高兴、我不高兴”的方式，遇到点破事就能不高兴，没有的话找点破事也要不高兴。不知再过几十年，后辈们如何看待这段历史，也许就跟我们现在看文革的笑话一样。

相关资料：
[1] 环球时报驻德国特约记者青木. 德安全套广告以中国领袖为主角德专家驳斥. 2009-04-14. http://world.huanqiu.com/roll/2009-04/431827.html
[2] 环球时报. 德侮辱已故中国领袖安全套广告激怒中国网民. 2009-04-14. http://china.huanqiu.com/roll/2009-04/432791.html
[3] 环球时报驻德国特约记者青木. 海外华人强烈不满德公司为侮辱中国领袖道歉. 2009-04-17. http://world.huanqiu.com/roll/2009-04/435320.html
[4] Doc Morris Pharmacies: Mao Tze-Tung. http://adsoftheworld.com/media/print/doc_morris_pharmacies_mao_tzetung

2009年4月16日星期四

【毕设】周报-第8周

-----------------
[周报] 第8周进展情况

本周完成情况：

　　本周前几天对中期报告文档及演示文稿进行了修改和完善。Web对象关系库方面，完善了数据库ER图。

　　上午9点正式答辩，答辩过程还可以。被老师问到的都是小问题，完成文档列表有些虚张声势，不应该包含程序流程图（当时写的是完成文档及演示文稿10份，绘制图纸7份。我后来想了一下，可能是我没有弄清楚用例图、活动图和流程图的概念和区别，用例图和活动图是可以放进去的，流程图不在此列）；用来处理的原始数据都包括什么内容（XML文件主要是维基百科网站的页面信息，爬虫爬取的是维基词条页面）。

　　和我一起的曹同学答辩的也很顺利。相较而言，其他人的毕设完成情况不太好。后来向师兄汇报了中期答辩的相关问题。

存在的问题：

　　Web对象的抽取工作尚未完成。维基百科数据量巨大，处理全部数据需要很多时间。目前只处理了一半左右的信息量，对现阶段工作来说已经足够。但是这样无法满足UDMGrid的需求，可以考虑优化抽取算法，节省处理时间。

　　在抽取到基本关系的基础上，加上人工定义规则，从结构化信息中抽取出词条间的语义关系。由于基本关系比较杂，难以进行单一的判断，而是需要大数据量的统计。

下周计划：

　　完成基本关系抽取，开始外部接口模块的代码编写。

2009年4月15日星期三

【毕设】日志-2009.04.08-12

-------------------
[日志] 2009.04.12

　　也许昨天我的电脑机箱被人踢到了，今天来实验室时发现机箱位置有了些偏移，开不了机。花了两个多小时修电脑，总算是修好了。原因应该是主板电池的问题，以及开机按钮接触不良。目前只能用镊子连通电源针脚。

　　下午完善了中期报告，作为最终版传到了FTP。晚上开会，又把中期报告的内容给各位师兄讲了一下。马师兄定下任务：每天给组内发一封邮件，汇报完成的工作、遇到的问题以及下一步计划。其实这与本站点的创立原因是一样的。

-------------------
[日志] 2009.04.11

　　中午小班聚会，跑到微软亚研那边的一个饭店搓了一顿。喝酒喝的有点困，下午没来实验室。

-------------------
[日志] 2009.04.10

　　上午9点正式答辩，答辩过程还可以。被老师问到的都是小问题，完成文档列表有些虚张声势，不应该包含程序流程图（当时写的是完成文档及演示文稿10份，绘制图纸7份。我没弄清楚用例图、活动图和流程图的概念和区别，用例图和活动图是可以放进去的，流程图不在此列）；用来处理的原始数据都包括什么内容（XML文件主要是维基百科网站的页面信息，爬虫爬取的是维基词条页面）。

　　和我一起的曹同学答辩的也很顺利。相较而言，其他人的毕设完成情况很不好，有两位同学的所谓中期汇报连开题报告的水平都达不到，没做任何工作，只是说了一下设想。如果在我们组，连开题都不可能。

-------------------
[日志] 2009.04.09

　　上午与实验室的几位师兄去体育馆打羽毛球。

　　下午和晚上一直在等待预答辩，没想到师兄们一直都很忙，晚上11点多才开始点评我的中期报告。报告还有一些小问题，回寝改到凌晨2点。

-------------------
[日志] 2009.04.08

　　今天一直在修改中期报告PPT，晚上原定的预答辩被推迟了，师兄们都很忙。

2009年4月14日星期二

中国人的感情又被伤害了，这次是安全套广告

　　今天白天比较忙，临近晚饭时登陆qq，看到同学转来一则qq新闻链接，标题《德国广告商将毛泽东作为安全套广告主角华人气愤》甚是吸引眼球。好奇的点了进去，满篇都是熟悉的怨妇式文风。一看来源，果不其然：乃是以折腾粪青闻名的《环球时报》[1]。

　　文章并未给出广告的原始链接，只是配了一张截图。好在内容详尽，很容易从Google上搜到。原来这是一个展示创意广告的网站，备受争议的广告题为“莫里斯医生药店：毛泽东”（Doc Morris Pharmacies: Mao Tze-Tung），广告词为“乳胶安全套双保险装，所有莫里斯医生药店均有销售”（1 latex condom extra safe. Available at all Doc Morris Pharmacies）。除了毛版[2]，还有希特勒[3]和拉登[4]版，也许这才是最令国人受不了的。

　　对此感兴趣的朋友可以看看原始链接，热心的网友们已经用半生不熟的英文夹杂中文展开了讨论。与腾讯网的评论不同，这里分成了三派：左粪、右愤以及看热闹而又不失理性的人。以我个人的角度来看，这则广告还是很有创意的，从反响上评价也可以说是成功的，这种结果也许会超乎广告设计者的意料。

　　愚人节发布的联合公报表示中法关系又开始友好了，而中英两国的友谊也无法被“卑鄙的伎俩”所阻挡，所以，德国佬，只能委屈你们了。风水轮流转，现在是骂德国的时间。从某种意义上讲，中国人的感情太容易被伤害了，不过这种脆弱似乎只针对外国人。对于国内发生的种种不合理事件，国人表现的十分坚强，甚至到了麻木不仁的程度。

　　这是一种心理变态。

相关资料：
[1] 环球时报：德安全套广告以中国领袖为主角德专家驳斥. 2009-04-14. http://world.huanqiu.com/roll/2009-04/431827.html
[2] Doc Morris Pharmacies: Mao Tze-Tung. http://adsoftheworld.com/media/print/doc_morris_pharmacies_mao_tzetung
[3] Doc Morris Pharmacies: Adolf Hitler. http://adsoftheworld.com/media/print/doc_morris_pharmacies_adolf_hitler
[4] Doc Morris Pharmacies: Osama Bin Laden. http://adsoftheworld.com/media/print/doc_morris_pharmacies_osama_bin_laden

网友评论摘录：
Submitted by Guest on Mon, 2009-04-13 22:06.
An insult to the Chinese people is a price to pay.

Submitted by Guest on Mon, 2009-04-13 23:09.
As a Chinese I don not feel any insult, because MAO is really a murder a butcher who killed millions of Chinese people. That's the truth.

Submitted by Guest on Mon, 2009-04-13 23:48.
You can ask your parent, how many people were tortured to death, and how many many people starved to death in Culture Revelation.

Submitted by Guest on Tue, 2009-04-14 01:31.
It would be better if the ad is for spermatocide.

Submitted by Guest on Mon, 2009-04-13 21:28.10
为了报复德国人,我建议把马克思和恩格斯做成中国安全套商标!请广大愤青们顶起来！

2009年4月13日星期一

【毕设】每周情况-第7周

本周完成情况：

　　前几天对设计说明文档进行修改扩充，完成了中期报告文档的初稿。

　　在对维基百科提供的XML数据集进行研究，发现很多非常有价值的东西。这样就可以把这部分数据，以及包含了类别信息的Category数据库放在一起加以利用。这样一来，要对构建工具的设计模块进行修改，把第一个模块改为页面处理模块。以维基百科XML数据集为基础，爬虫根据实现情况放到次要位置或者搁置起来。另外，对维基百科的类别信息数据库进行了初步处理，可以实现简单的子类别查询功能。

　　周日晚上开组内交流会，汇报工作内容，讨论中期报告的相关问题。

存在的问题：

　　在数据库的导入过程中，由于源SQL文件巨大，用命令行导入费时费力。MySQL Administrator导入速度虽然快，却存在Bug容易假死。

　　编写抽取XML数据的程序，对于简单的XML处理很容易，但是处理数据量比较大、名字空间较复杂的维基XML时，总是发生错误，目前的解决方法差强人意，需要时间来调试。

下周计划：

　　修改中期报告文档和PPT，调试Web对象抽取功能的代码，准备中期答辩。

2009年4月12日星期日

科学发展观的英译

　　今天偶然看到，网友“三言两语”把China Daily的一篇文章《Scientific Outlook on Development》[1]翻译成了中文，发表在译言上[2]。原文很有意思，虽然是英语，却也通俗易懂，没有那种绕弯子的官话。

　　这引起了我的兴趣，于是便去查外国网站上关于科学发展观的文章，看看是否有易于理解的独到观点。不过，查了几个网页才发现，科学发展观的英译并不统一。2005年，人民网翻译成“Scientific Concept of Development”[3]，不过到了2007年，新华网关于十七大的新闻[4]采用的是“Scientific Outlook on Development”，应该是官方的译版。此外，BBC[5]、VOA[6]的报道里采用的都是这个版本。这样一来，维基百科翻译成“Scientific Development Concept”[7]就不算准确了，究其原因，也许是词条创建时间较早的缘故。

　　本来事情到此就应该告一段落了，但我又发现，在中国知网CNKI的翻译助手上搜索的结果[8]更有趣。网站提供这个功能的本意是把所有论文的中英文关键词及摘要作比对，并显示相应的词汇句子段落，帮助学者翻译好专业术语。不过，却无意中暴露出很多学者英文水平低下的事实。

　　摘录部分科学发展观的翻译如下：
scientific development view(1046)、scientific development concept(559)、scientific concept of development(464)、view of scientific development(403)、the view of scientific development(326)、scientific view of development(300)、concept of scientific development(300)、scientific development outlook(195)、scientific outlook on development(157) ...

　　正确的翻译scientific outlook on development只有157例，排在14名左右。而第二和第三位的版本由于历史原因，还算情有可原。但排在第一位的是最弱智的直译scientific development view，竟有1046例，这是很说明问题的。查看其来源，大多是党史理论研究的文章。如此想当然的翻译不仅说明学术态度不严谨，而且也相当于犯了严重的政治错误 ... 真是讽刺到极致。

相关资料：
[1] Celene编辑. Scientific Outlook on Development. 中国日报-英语点津, 2007-10-12. http://www.chinadaily.cn/language_tips/2007-10/12/content_6170884.htm
[2] 三言两语. 英译中-英语点津编辑的《科学发展观》. 2009-04-10. http://www.yeeyan.com/articles/view/wshijf/36560
[3] President Hu advocates scientific concept of development. 2005-04-18. http://english.people.com.cn/200504/17/eng20050417_181418.html
[4] Hu: Scientific Outlook on Development part of theories of socialism with Chinese characteristics. 2007-10-15. http://news.xinhuanet.com/english/2007-10/15/content_6883024.htm
[5] Chinese party unveils new leaders. BBC News: Asia-Pacific, 2007-10-22. http://news.bbc.co.uk/2/hi/asia-pacific/7055739.stm
[6] China's Communist Party Chooses New Leaders. VOA News, 2007-10-22. http://www.voanews.com/english/archive/2007-10/2007-10-22-voa5.cfm
[7] Scientific Development Concept. http://en.wikipedia.org/wiki/Scientific_Development_Concept
[8] CNKI翻译助手-科学发展观. http://dict.cnki.net/dict_result.aspx?searchword=%u79D1%u5B66%u53D1%u5C55%u89C2

2009年4月11日星期六

King of Fighters 12 街机版发售

【按：由于中国特色的盗版事业，使得KOF系列在中国积累了深厚的民众基础，不过这个基础仅限于97和98。从KOF12的画面来看，细节方面做得很足。但是个人感觉部分场景的色彩太过华丽了，是否影响到游戏对战，还要看视频才能判断。最后一张图显示，角色离近看会有锯齿。】

人气2D格斗游戏 KOF《格斗之王》（也叫拳皇）系列最新作《格斗之王12》的街机版于本日4月10日正式发售。《格斗之王12》采用TAITO公司开发的高性能街机基板TAITO TypeX2，无论是角色表现还是场景表现都将比前作大幅提高，将达到系列作品最强2D画面，角色动画演出效果也将更加流畅，必杀技等的表现也更加华丽。游戏的家用机版预定于2009年7月发售。

2009年4月10日星期五

读新闻-2009.04.10

【按：感觉这是对西藏问题的最准确分析。“在目前的国家制度和政治体制下，西藏问题基本无解。”其实也可以把“基本”换成“根本”。】

（BBC）西藏问题有解吗？
点评中国李大同 2009年04月07日
http://news.bbc.co.uk/chinese/simp/hi/newsid_7980000/newsid_7985400/7985440.stm

摘录：
问题在于"自治权"上。

正因为如此，无论达赖喇嘛如何声明自己是一个中国人，声明不寻求独立，声明愿意在中国宪法范围内实现藏民自治，中国政府还是不能答应，王顾左右而言他。在目前的国家制度和政治体制下，西藏问题基本无解。

也许，民族区域自治的制度安排根本就是错的，至少已经被证明是没有出路的。

2009年4月9日星期四

新的博客标题图

Akuma trains endlessly day and night on his fortress island Gokuentou.
豪鬼日夜不停地在狱炎岛上修行.

Unfortunately for Akuma, Gokuentou is gradually converted into an exclusive leisure resort...
很不幸, 狱炎岛已经逐步转变为一个高级休闲胜地. -_-!

Gouki: Mmm ! This island has been overrun by tourists ! It is no longer the ideal place for my training it once was !
豪鬼: 呣 ! 这个岛已经游客泛滥了 ! 它不再是曾经我修行的理想场所了 !

Thus Akuma journeyed forth from his island in search of new training grounds...
因此豪鬼离开了他的岛去追寻新的修行场所...

And so Akuma was led by Lei-Lei to an abandoned graveyard located deep within a forest...
所以豪鬼跟着Lei-Lei来到深山老林里的一个被遗弃的墓地...

Lei-Lei: How do you like it ? At night, you can practice your moves on the hordes of zombies that dwell here.
Lei-Lei: 感觉怎么样 ? 到了晚上, 你可以和住在这的大群僵尸们修行.

Gouki: Hmmm ! It might prove interesting to brush up my sure killing techniques on these zombies...
豪鬼: 呣 ! 我肯定这些僵尸碰到我的"杀意之波动"会很有趣的...

Gouki: Hyaaaaaaah !!!
豪鬼: 嗨呀呀... !!! (开始欺负可怜的僵尸了, T_T)

Having found the perfect place to train. Akuma's quest to become this world's mightiest warrior continues.
找到了理想的地方来修行后, 豪鬼要成为世上最强的战士的追求仍在继续着...

　　新的标题图来自Super Gem Fighter: Mini Mix （口袋战士: 迷你混战）。几年前我曾翻译过这个游戏的剧情[1]，当时截图都上传到最有名的Mofile网络相册，后来这个相册停止了免费外链，图片变成了一个个红叉。昨天再去看那网站，发现一个通知[2]，免费用户的图片竟都被删了，很多图片我还没有备份 ... 悲剧。之前的永久免费承诺在金钱面前显得脆弱不堪。

　　选择一个靠得住的网络服务提供商太难了，这也是我不愿意离开新浪的最重要的原因。不过新浪的靠得住也是相对而言的。举个播客的例子，新浪在今年大刀阔斧地删除了所有电视剧视频，怕日后引起版权纠纷。不过，我曾上传的超过2000的游戏视频不涉及版权问题，幸免于难。

相关资料：
[1] 其它版本街霸中豪鬼(Gouki/Akuma)的结局.http://blog.sina.com.cn/s/blog_4a9fe761010008qo.html

[2] mofile网盘和图片重要公告. http://photo.mofile.com/
告全体免费用户，一周后mofile将停止网盘和图片的免费服务，请各位免费用户在这一周内下载您的文件，4月4日点我们将永久删除免费用户的文件，如果您想升级为付费用户，请与一周内与客服联系。

思想汇报-2009.04.06

【按：最新的思想汇报 ... 】

思想汇报

敬爱的党组织：

　　下面汇报我近期的思想心得体会，主要包含两方面：我在学习科学发展观过程中的一些感悟，以及对时政的思考。

　　回顾最近的二十多年，我党体现出的一个鲜明特点就是理论的与时俱进。在此期间，党章被频频修改：十四大将建设有中国特色社会主义的理论和党的基本路线写进党章；十五大把邓小平理论载入党章；十六大增加了“三个代表”重要思想；十七大又加上了科学发展观、和谐社会和社会主义荣辱观。这些后提出的理论放在一起被称作中国特色社会主义理论体系。

　　邓小平理论抛弃了传统社会主义的阶级斗争，将重点放在经济发展。三个代表对私营企业家开放入党，是重大的革新，顺应了中国的发展现实。科学发展观注意到以前发展时暴露出的诸多问题，强调以人为本，试图实现全面、协调、可持续的发展。

　　然而，有人认为经济发展并不能解决中国的所有问题，社会公正和政治制度改革是中国长治久安的前提。和谐社会是一个很好的设想，但是有时候往往抹杀了真正的公平公正。而政治制度改革更是止步不前，十七大召开之前胡总书记亲自发表讲话否定了民主社会主义，今年年初，政协贾主席撰文要抵制西方多党制，人大常委会吴委员长作报告称绝不搞多党轮流执政、三权分立。这么多年过去了，领导人任期从终身制转为限任制似乎是政改唯一的成果。

　　除了理论学习，再谈谈对时政方面的想法。当今中国，狭隘的民族主义和爱国主义甚嚣尘上，甚至成为了我党统治合法性的基础之一，这不是什么好事。这里面国内媒体负有不可推卸的责任：从早年的反美反日，到后来胡编歪曲韩国的报道，以及近两年反法，再到近期的西藏问题、铜兽首炒作等事件上，这些媒体不断推波助澜，煽动、折腾愤青。

　　这样做是在玩火。仇恨式的教育和宣传令愤青们从小便丧失了独立思考的能力，在一些大是大非问题上做出令人啼笑皆非的判断。比如，愤青们经常为一些恐怖活动叫好，着实令倡导反恐的我国政府尴尬不已；中日正要回归蜜月期，愤青们却还在叫嚣抵制日货；去年，大批愤青宣称抵制家乐福，害得政府不得不发出倡议，号召以做好本职工作的方式爱国 ... 虽然在那次抵制活动中曾有过3名民警驱散几百名愤青的事例，却并不能排除愤青群体中没有极端分子的可能性。长此以往，或许会产生难以预料的后果。因此，国内媒体不该没事就折腾愤青玩，而应多报道一些客观的东西加以疏导。

　　恳请批评指正。

　　2009年4月6日

2009年4月8日星期三

【毕设】日志-2009.04.05-07

-------------------
[日志] 2009.04.07

　　上午修改中期报告文档，上传到FTP中，下午去参加了一个笔试。

　　对于数据库存储格式，暂时这样设计：

-------------------
[日志] 2009.04.06

　　今天主要在忙着写党员思想汇报和读书笔记，完成了中期报告PPT的初稿。

　　其中，对Web对象的抽取结果如下：

　　对Web对象间层次关系的抽取结果如下：

-------------------
[日志] 2009.04.05

　　下午得到通知，要完成毕设手册期中小结及以前的所有内容。此外，准备了晚上开组内交流会的PPT。

　　晚上开会，师兄通知了中期答辩的具体日期，是第8周周五，即4月10日。看来之前延期的美梦破灭了。经过与师兄们讨论，爬虫部分可以避免被砍掉。对于针对维基的关系库构建工具，要有一套相对完整的解决方案。维基百科提供XML数据集，但是其它的维基类网站未必提供，因此爬虫模块还是必要的。我已经设计并实现了针对维基类网站的页面爬取以及Web对象抽取的过程，可以保留下来。

　　因此工具的子模块改为页面处理模块，包括对XML处理和页面爬取两部分功能。

　　开完会，由师兄领着去找陈老师给毕设手册签字。老师提醒我们注意开题时曾被提问过的问题。

2009年4月7日星期二

《科学发展观学习读本》读书笔记

【按：昨天写完的，已经上交了 ... 】

深入学习科学发展观
——《科学发展观学习读本》读书笔记

　　学院党支部前些天传达了学习科学发展观的通知，要根据指定读本学习，并且上交读书笔记。发了一本书，叫做《深入学习科学发展观读本》，后来又给了《科学发展观学习读本》的电子版。到底针对哪本书来写读书笔记，着实令人头疼。

　　我上网查了一下，《科学发展观学习读本》早在2006年6月就有了，后来第二版出版于2008年8月，编者在题目加上了“深入学习”字样，即前面提到的那本。至于支书给的电子版，则是中共中央宣传部的最新作品，出版于2008年10月，在人民网有全文登载。再加上中共中央组织部和中共中央宣传部发布的通知[1]，应该是学习后者无疑了。写读书笔记，如果连书都搞错，那就白写了。

　　各大网站对《学习读本》的内容简介[2]里都写着这样一句：“全面准确地阐述了科学发展观的重大意义、深刻内涵和基本要求。”我认为这再次体现出本书的权威性，因为在同类书籍中，没有第二本书敢用这种描述。虽然本书只有80页（《深入学习》有190页），却句句精炼，是目前最重要的学习资料。

　　科学发展观是2003年10月中共十六届三中全会上提出的口号，强调以人为本，树立全面、协调、可持续的发展观。回顾历史，十五大把邓小平理论确定为党的指导思想，十六大“顺应时代发展要求和新形势新任务的需要”将三个代表写入党章后，十七大又“根据形势和任务的发展变化”把科学发展观写入党章。这体现了胡总书记提倡的科学发展观和毛、邓、江所提出的思想理论并排，进入一步奠定他中共第四代领导人的位置。

　　我粗略读了一遍《学习读本》，里面花了大量篇幅在解释一个隐晦的问题：为什么要提出科学发展观？从表面上看，是提出一种新思想来指导我们做各种事。但是往深处挖掘，就会发现它其实在暗指中国以前的发展都是“不科学”的。

　　是这样的，正是因为以前发展不科学，才要提出科学的发展观来指导发展。

　　当今世界，正统的社会主义国家只有朝鲜和古巴。它们都有共同的特点：穷；它们也有不同点：一个是父子继承统治，一个是兄弟继承统治。上世纪60年代，毛泽东思想指导下的我国痛斥苏修，试图延续正统。然而经过第一次解放思想，邓小平指出“贫穷不是社会主义”，开辟了具有中国特色的社会主义道路，不再理会是否正统。第二次解放思想过后，我党与时俱进的吸纳了私人企业家，代表了最先进生产力的发展要求，转化成“中国工人阶级、中国人民和中华民族的先锋队”。

　　前两次思想解放抛弃了传统社会主义的教条，创立中国特色社会主义理论体系，换来了中国的飞速发展。但这个发展过程片面追求GDP增长，忽视环保，忽视弱势群体，忽视社会文化建设，所以是不科学的。在这样的背景下，第三次解放思想，也就是科学发展观应运而生。弄清楚这些前因后果，才能更好的理解科学发展观。

　　回顾党的三次思想解放，每一次都是对之前理论的批判修正。如果用理论术语来说，就成了“是XX的继承和发展”。这样的事，还会继续下去。因此，我们现在既要争取全面领会现有理论，也要随时等待新通知、新精神、新指示的到来。

参考资料：
[1] 中共中央组织部中共中央宣传部关于认真组织学习《科学发展观学习读本》的通知. 2008, 9, 23. http://theory.people.com.cn/GB/68294/135509/135527/8140385.html
[2] 卓越网-科学发展观学习读本. http://www.amazon.cn/dp/zjbk800qei

2009年4月6日星期一

学校也喜欢愚人节

【按：学校有时候还挺逗 ... 】

《京华时报》：北航本科生签约率超过80% 研究生就业率超过90%
点击数:[500] 加入时间:[2009-04-01 09:02]
http://news.buaa.edu.cn/dispnews.php?type=5&nid=35621&s_table=news_txt
http://epaper.jinghua.cn/html/2009-04/01/content_406722.htm

《京华时报》2009年4月1日（周逸梅）报道：北航本科生签约率超过80%，研究生就业率超过90%。

记者昨天从北航“中英大学生就业教育与指导论坛”上获悉,包括上研的毕业生在内,目前北航本科毕业生签约率超过80%,研究生签约率超过90%。

据北航招生就业处处长程基伟介绍，北航目前的本科生签约率超过80%，其中工作签约占40%，考研或保研占40%。研究生目前的就业率更是超过了90%。学生就业率与去年同期相比基本持平，没有受到金融危机的影响。北航良好的就业形势来自于今年航空航天企业扩招以及大飞机计划启动。其中，中国航空工业集团在北航就招收了500名毕业生。

和北航不同，金融危机对中央财经大学的影响更大，该校目前研究生的就业率在50%左右，低于往年，不过本科生的就业率仍与去年持平。该校就业办的老师表示，这是因为研究生对就业的预期更高，更难调整心态。

编辑：贾爱平

【毕设】日志-2009.04.04

-------------------
[日志] 2009.04.04

　　Wikimedia Downloads[1]是维基百科自2006年起提供的一项服务，其中的XML数据集[2]聚合了网站页面内容，数据库文件重在为词条等提供编号。

　　由于加入了对XML处理的过程，要修改Web对象关系的抽取设计。

　　Web对象就是Web页面的基本数据对象，在此特指维基中的词条及其基本信息。获取维基中的词条名很简单，因为页面爬取得到的网页文件名或XML文件中的标题名即是维基词条名。为了增加知识库的完整性，也要有描述该词条的概述内容，这同样可以从分析关键标签的方法入手。下图是Beihang University词条页面，词条名与目录之间的部分就是概述。

　　对于HTML页面来说，词条名保存在wgTitle中，而概述一般处于词条名与Contents之间，将这部分信息单独抽出即完成了对Web对象的抽取。对于XML文件来说，词条名在文件的title标签信息中，概述一般存在abstract标签信息中。

　　为了满足项目的需求，还需要将英文词条与中文词条相对应。这里需要抽取XML数据集中的信息。每个词条的正文都以text标签开始，查找[[zh:XX]]项，就可以获取相对应的中文名。

相关资料：
[1] Wikimedia Downloads. http://download.wikipedia.org/
[2] L. Denoyer. The Wikipedia XML Corpus. SIGIR Forum, 2006.

2009年4月5日星期日

对学习科学发展观两种读本的考证

　　几天前开了一次会，支部书记提到要在近期根据上级推荐的书来学习科学发展观，而且要上交读书笔记。书的名字叫《深入学习科学发展观读本》，每个支部只有一本，不方便传阅，但是读书笔记还是要写。

　　今天支部书记说上级刚给她发了读本的电子版，让大家都去下载学习。事情发展到这个地步，一般人要做的事就是从电子版里面复制一些句子，粘到800字左右，作为笔记直接上交。我不会这样做，因为我已经告别这种初级阶段了。既然上面兴师动众要求学习，不多花点时间研究一下说不过去。

　　打开电子版看了一下目录，有种似曾相识的感觉。前些天我为了写读书笔记做调研时，曾经见过这些内容。于是仔细查了一下，原来，有两种读本：一个是《科学发展观学习读本》,一个是《深入学习科学发展观读本》，上级给支书的电子版是前者，而文件要求学习后者。

查卓越网，先做一下对比：

科学发展观学习读本
http://www.amazon.cn/dp/zjbk800qei

作者：中共中央宣传部
出版社：学习出版社
出版日期：2008年10月1日
市场价：13.00元
页数：80页
内容摘要：本书以党的十七大精神为指导，全面准确的阐述了科学发展观的历史地位、时代背景、科学内涵、精神实质、根本要求。

深入学习科学发展观读本
http://www.amazon.cn/dp/zjbk800hhi

作者：本书编写组
出版社：中共中央党校出版社
出版日期：2008年8月1日
市场价：15.00元
页数：190页
内容摘要：本书内容有科学发展观的形成过程和时代背景、科学发展观的基本内涵和精神实质、科学发展观的理论基础和重大意义等。
【按：这本书的前言里写着“为了帮助读者学习科学发展观，我们根据党的十七大以来的精神，对第一版《科学发展观学习读本》作了修订，改名为《深入学习科学发展观读本》”。令人很是迷惑，因为从时间上看，它的出书时间要比前者早，怎会成为前者的第二版？而且内容上明显不如前者权威。经过我仔细调查，它说的第一版并非上面的《学习读本》，而是另有其书。从网上的资料来看[1]，最迟在2006年已有一种《科学发展观学习读本》，但是与最新的不一样。】

　　虽然后者的标题和出版社很强悍，但从作者、内容、出版时间来看，前者更胜一筹。试问同类书籍，谁敢用“全面准确的阐述”这样的用词？《科学发展观学习读本》在人民网有全文登载[2]，也无怪乎会有电子版了。

　　这两种读本剪不断理还乱的关系，我认为可能是这样的：几年前曾经有一本《科学发展观学习读本》，后来原书编写组在此基础上加以改进，出版了《深入学习科学发展观读本》。但是中央宣传部的一批人，出版了更加权威的《科学发展观学习读本》，现在让大家学习的应该是指最新的这本。上级支部在传达学习通知的时候混淆了这两种读本，在当今中国这个依然讲政治的年代里，犯下了不大不小的政治错误。

相关资料：
[1] 搜狐网-科学发展观学习读本连载. 2006, 7. http://news.sohu.com/20060731/n244533161.shtml
[2] 人民网理论书库-科学发展观学习读本. 2008, 10. http://theory.people.com.cn/GB/68294/135509/

2009年4月4日星期六

推荐博客：2ch看日本

　　偶然看到这个博客“2ch看日本”，对博主很是佩服。他花大力气翻译了很多日本2ch论坛的热帖及评论，可以借此深入了解日本网民的普遍想法。

　　中文维基在描述2ch的政治倾向时写到：“随着因特网在日本的普及，日本网络舆论不断呈现保守化的趋势。而2ch是其最知名的代表之一。民族主义、国粹主义的泛滥，令其总体政治倾向为极端的反中、反韩、反朝。”我认为是不准确的。与多数中国网民相比，日本网民的平均素质强太多了，回帖评论也更具幽默感，把恶搞当作招牌的猫扑也难以望其项背，不服不行。

链接：
（百度空间）http://hi.baidu.com/letus2ch
（新浪博客）http://blog.sina.com.cn/lets2ch

-----------------

2ch链接：http://2ch.net/

维基百科：2ch词条. http://zh.wikipedia.org/wiki/2ch
2ch、2channel（可译为二频道、第二频道、第二台等等），一般称2ch，是日本的一个巨大Web论坛，目前每日有超过一千万人的用户（2001年）。2ch基本上是一个非常巨大的留言板集合体，并对于日本社会影响力与日俱增。

2009年4月3日星期五

【毕设】日志-2009.03.31-04.03

-------------------
[日志] 2009.04.03

　　导入enwiki-20090306-categorylinks.sql的工作仍未完成，MySQL Administrator导入速度虽然快，却存在Bug容易假死，所以仍然要用命令行来导入。

　　下午参加了中关村软件孵化协会的招聘会，海投简历。晚上开始写抽取XML数据的程序，对于简单的XML处理很容易，但是处理数据量比较大的维基XML时，总是发生错误，暂时没有调试好。

-------------------
[日志] 2009.04.02

　　昨晚下载了一些维基百科提供的XML数据集，以及一些与类别相关的SQL文件。由于数据量巨大，导入MySQL数据库要耗费很长时间。

　　目前将研究重点放在XML的处理上。

-------------------
[日志] 2009.04.01

　　下午抽时间写了一个中期报告的初稿。晚上与师兄讨论知识库格式。讨论的结果是，我不得不把研究多时的爬虫模块整个砍掉，这对于我的近期工作和中期汇报是一个致命的打击。

　　这不是愚人节的玩笑。

　　我必须在中期之前把知识库的雏形建好，并且抽取出简单关系。

-------------------
[日志] 2009.03.31

　　今天在实验室修改设计文档。扩充了子模块设计部分，上交了文档UDMGrid-DOC4-设计说明文档-20090331-1-jyb.doc。

2009年4月2日星期四

“全球有10亿人熄灯1小时，每人节约1度电”...

　　前段时间在Google Reader中订阅了《青年参考》[1]，本以为它既然是数不多的提供全文RSS订阅的报刊类媒体，素质应该还行。今天看到一篇文章《北京王府井灯火通明，多数人不知要“熄灯”》[2]，大跌眼镜。

　　里面有这样一段话：“这一小时的熄灯活动究竟能对气候变化有何贡献呢？世界自然基金会全球气候变化应对计划主任杨富强介绍，1度电大约等于1公斤二氧化碳排放量，如果28日晚全球有10亿人熄灯一小时的话，每人节约1度电，就可以减少100万吨二氧化碳的排放。”

　　读到这些，头脑里的第一反应是，这个杨主任是不是YY过头了？如果每人熄灯一小时就能节约1度电，这电灯是不是太费电了点？普通家庭用的电灯一般是日光灯，能耗也就几十瓦，若是用节能灯就更少了。一个家庭平均到每人，也就一两盏灯，1小时能耗0.1度电就算不错了。即便算上大厦和景观使用的彩灯，平均下来也绝不会达到1度。这里面还有另一个问题，活动宣传者认为全球会有10亿人参与，显然是将“80个国家的2400多个城市”的人口作了加法计算。外国怎么样我不清楚，不过就从北京来看，我认为参与的人连5%都不到。

　　从网上的资料来看[3]，杨主任是个留过学的博士，怎么也说这种煽情却缺乏常识的话？

相关资料：

[1] 青年参考. http://qnck.cyol.com/
[2] 王梓（实习生）. 北京王府井灯火通明，多数人不知要“熄灯”. 2009-03-31 14:43. http://www.qnck.net.cn/content/2009-03/31/content_2604424.htm
[3] 美国能源基金会副主席兼北京办事处首席代表杨富强博士. 2007, 9. http://www.chinaenvironment.com/action/Topic/t3/ViewNews.aspx?i=183

2009年4月1日星期三

【毕设】日志-2009.03.29-30

-------------------
[日志] 2009.03.30

　　今天很早来到实验室，研究页面去噪方法。维基类网站大多是基于MediaWiki[1]程序规范生成页面，有固定的模式。本毕设需要的信息只存在于词条页面的正文文本中。初步爬取的网页信息中有很多都是无用信息。通过分析HTML标签，来删去无用信息，对页面去噪。

　　例如，侧边栏、脚注、引文、外部链接等都是可以完全删去的；表格、题头需要经过简单的判断后删去。

　　调研DBpedia的论文[2][3]，它对维基百科中Infobox的处理比较巧妙，但是具体过程不详。完成了UDMGrid-DWGK-信息表格高级关系抽取流程图-20090330-1-jyb.vsd。

　　晚上8点半，实验室终于开网了，看来保密检查已结束，明天开始调研更多的论文。

参考资料：
[1] MediaWiki. http://www.mediawiki.org/
[2] S. Auer, J. Lehmann, What have Innsbruck and Leipzig in common? Extracting Semantics from Wiki Content. In Proceedings of the 4th European Semantic Web Conference (ESWC' 07), 2007.
[3] S. Auer, C. Bizer, G. Kobilarov, J. Lehmann, R. Cyganiak, Z.G. Ives. DBpedia: A Nucleus for a Web of Open Data. 2007.

-------------------
[日志] 2009.03.29

　　上午来到实验室，开始准备晚上组内开会用到的演示文稿PPT，学习交流-ppt-第6周工作汇报-20090329-0-jyb.ppt。之后对设计文档进行了补充。

　　晚上开会时，几位师兄对我毕设的进度提出了批评，因为外部接口的详细设计没有完成。后来讨论了一下找工作以及软院调剂的问题，明确下周工作计划。

订阅：评论 (Atom)