2009年3月31日星期二

Harmonize与River Crab

harmonious是形容词,当然不如harmonize有意境。正如crab对比river crab,后者显得大气十足。



harmonize,vt. 使和谐。
river crab,n. 河蟹。

【毕设】每周情况-第6周

本周完成情况:

  本周完成了设计说明文档的初稿。设计方案中的处理流程,主要包含以下几个部分:改造Heritrix,对维基百科网站页面进行爬取及更新爬取;对页面链接进行过滤,对页面无用信息进行去噪;分析并抽取Web对象及其基本关系;抽取Web对象间的高级关系;将结果构建为知识库;用户根据工具提供的二次开发接口来进行进一步的开发。构建工具的4个子模块中,重点完成页面爬取模块和关系抽取模块的详细设计。

  周日晚上开组内交流会,讨论了设计文档的不足,以及关系抽取方面忽略的重要内容。由于进度较慢,被师兄们批评。

存在的问题:

  本周由于找工作耽误了一些时间,毕设的进度缓慢,任务完成程度差强人意。后半周实验室断网,令我在关键技术补充调研方面遇到了困难,很难查阅论文,必须等到网络恢复才能继续调研工作。外部接口的详细设计没有完成,由于涉及到知识库的具体存储格式,暂时没法写。

下周计划:

  修改设计说明文档,与师兄探讨确定知识库格式,实现页面过滤,研究关系抽取方法,准备中期答辩。

2009年3月30日星期一

【毕设】日志-2009.03.26-28

[日志] 2009.03.28

中午来到实验室,还是处于断网状态,下午回寝修改设计文档。

关于页面过滤方面,暂时没办法调研了。

完成了UDMGrid-DWGK-目录信息高级关系抽取流程图-20090328-0-jyb.vsd



-------------------
[日志] 2009.03.27

实验室断网,在寝室修改设计文档。

完成了UDMGrid-DWGK-基本关系抽取流程图-20090327-0-jyb.vsd



-------------------
[日志] 2009.03.26

设计文档的撰写遇到了困难。晚上实验室断网了。

闲暇时完成了UDMGrid-DWGK-页面爬取子模块流程图-20090326-0-jyb.vsd

2009年3月28日星期六

读新闻-2009.03.28

(VOA)“班禅喇嘛”讲话 藏人是否承认
记者:江河 华盛顿 Mar 27, 2009
http://www.voanews.com/chinese/w2009-03-27-voa59.cfm

摘要:不指名谴责达赖喇嘛;真是他说的?灌输的结果;寺庙少见其画像;精神领袖?

(BBC)“和服照”、“抗日短裤”与爱国
尚清 BBC中文部记者 2009年03月27日
http://news.bbc.co.uk/chinese/simp/hi/newsid_7960000/newsid_7963800/7963882.stm

摘要:莫忘国耻;网络论战;心理脆弱;口水爱国;

(德国之声)艾未未呼吁调查汶川地震遇难学生数字
作者:ARD/祝红 文化社会 2009.03.27
http://www.dw-world.de/dw/article/0,,4129501,00.html

(路透社)奥运火炬全球传递被取消 2016年开始生效
记者 Steve Keating 2009年3月27日
http://cn.reuters.com/article/oddlyEnoughNews/idCNChina-4083320090327

2009年3月27日星期五

【转载】“全球一小时”:一场劳民伤财的环保秀

【按:我也很不喜欢这种形式化的东西,何况这样的行动极具煽动性,传到了中国,一些人难免又像磕了药一样,High到极致。我们需要理性的环保理念,不需要无聊的作秀。】

转自新语丝:http://xys3.dxiong.com/xys/ebooks/others/science/dajia10/huanbao18.txt

◇◇新语丝(www.xys.org)(xys3.dxiong.com)(www.xysforum.org)(xys2.dropin.org)◇◇

  “全球一小时”:一场劳民伤财的环保秀
  文/水博

  某著名的环保组织倡议3月28日20时30分全球关灯一小时以达到节能减排的效果。“关灯接力”从新西兰起,在亚太地区将传递到悉尼、首尔、上海、深圳、北京、佛山、保定、香港、吉隆坡、马尼拉、新加坡、曼谷、雅加达、孟买和新德里。从亚洲开始,“地球一小时”活动将为全球24个时区的人们提供一个表达环保、应对气候变化的平台,也将会凝聚世界各个角落的所有人一起踏上应对全球变暖的旅程。

  据悉“地球一小时”活动首次于2007年3月31日在澳大利亚悉尼展开,吸引了超过220万悉尼家庭和企业参加。随后,活动以令人惊讶的速度迅速席卷全球。2008年,有35个国家近5000万民众参与了熄灯活动,今年参与的民众将高达10亿左右。今年这一活动将首次传到中国。世界上已经有很多人和组织机构对此表示支持和赞赏。

  然而,如果我们透过这场活动漂亮的宣传口号,我就会发现这是一场劳民伤财的环保秀。因为中国的电网不像新西兰等西方国家有大量的燃油、燃气机组,全民停电一小时期间关闭几台机组,确实能够起到一定的节能作用。我国的电网以煤电为主,机组的熄火和启动都需要很长的时间。一旦全国都停电一小时不仅不会节约能源,可能反而会增加正常的煤耗。如果控制不好还会引起电网事故。客观地说我们的广大市民在最需要用电的黑夜里,停止用电一个小时所得到的,决不是什么节约能源的实际效果,而是一场劳民伤财的为环保组织捧场的环保秀。节约用电最有效、最实际的办法,是每个人都随时随地的注意节约。而不是这样大家一起,作一场环保秀的游戏。

  现在的世界搞环保确实很时髦,环保秀也是很多组织和政客哗众取宠的重要方式。然而,如果我们大家不能从科学的态度出发,热衷于为自己捞取某种资本的环保秀,那么我们不仅不会保护环境,而且还会破坏环境。除了这可笑的“全球一小时”之外,我们还有很多环保活动都带有作秀的成分。

  例如,所谓的“无车日”。为了节能减排,动员大家尽量的少开汽车当然是好事。但是,某些环保组织为了作秀,非要大家一起搞一个无车日。这样虽然大家在那一天都尽量不开车了,但是,根据我个人的体会,所有那一天要办的事情,几乎都要想办法安排在无车日的前后两天。所以,无车日的前后两天必然是拥挤日。因此,如果从道路资源的合理利用角度来看,我们搞无车日的结果,不仅不能节约能源,反而一定会浪费能源、增加排放。

  好在我们的广大市民群众的脑子都不算糊涂,虽然环保组织“无车日”的口号喊得很响,但是北京的无车日,我看到路上的车子还是一点也不见少。因为他们都知道参加无车日的活动绝不是节能,而不过是帮助环保组织作秀。相反只有抓紧在环保组织搞的无车日出来办事,才是真正的节能减排。事实证明还是“群众是真正的英雄”。

  我相信这个“全球一小时”也将验证“群众是真正的英雄”这一真理。因为,我们真正的节能减排的办法,是要在平时的每时每刻注意节约能源,而绝不是热衷于和一些环保狂热组织一起作秀。

(XYS20090326)
◇◇新语丝(www.xys.org)(xys3.dxiong.com)(www.xysforum.org)(xys2.dropin.org)◇◇

读《“私人太空旅游”不是谁都能消遣得起》

  无意中在牛博山寨头条[1]看到《“私人太空旅游”不是谁都能消遣得起》[2],下面写着作者沈宏非,美食专栏作家,自称“馋宗大师”。里面有一段文字令人喷饭:

  “最现实的困难是,本人的体重长期保持在80公斤级以上,而目前把每公斤物体送入太空的成本据说是50000美元,照此推算,要把鄙人这样的庞然大物送上太空,我得花费400万美元。唯一不解的是,众所周知任何物体进入太空之后都将处在失重状态,也就是说,按重量收费的政策近乎商业欺诈,最起码在一个文科生看来如此。”

  作者的最后一句用语比较谦虚,可能是预料到自己这段话里会有错误,却又不知是什么,所以想给读者安个避雷针。他知道把单位重量物体送入太空的成本,又提到物体进入太空后失重,于是判定按重量收费是“商业欺诈”。我想一般人应该都能看出这里面简单的逻辑错误:物体从地面到太空需要克服地球重力,以第一宇宙速度飞上去,这个过程中显然是越重的物体耗费的成本越多,与物体在太空是否失重不相干。如果真的只按重量收费,那才叫童叟无欺,呵呵 ...

相关资料:
[1] 牛博山寨. http://bullog.org/
[2] 沈宏非. “私人太空旅游”不是谁都能消遣得起. http://m.metroer.com/post/148/

2009年3月26日星期四

【毕设】日志-2009.03.25

[日志] 2009.03.25

  下午去华北计算研究所的太极公司参加笔试,北航的去了六七十个。

  晚上认真赶设计文档,好几天都没有什么成果。


-------------------
[日志] 2009.03.24

  今天上午去参加笔试,下午才来到实验室。继续写设计文档。

  晚上作为考研失利的反面典型,被辅导员叫去参加学院的考研交流会。虽然学院的初衷是为了分析05级考研整体失利的原因,但这种交流难免会让自己心情郁闷。倒是一位过400分的同学眉飞色舞,说起经验和感想有如滔滔江水连绵不绝,大有指点江山之势。


-------------------
[日志] 2009.03.23

  今天在实验室主要在写详细设计说明文档。找大三的同学讨论了一下Heritrix,他当时的项目源码已经删了。我发邮件向杨师兄要,他也只有一部分代码而已。

  晚上完成了毕设手册-第5周进展情况。明天上午有个笔试,要准备一下。

2009年3月24日星期二

【毕设】每周情况-第5周

本周完成情况:

  本周按师兄的要求修改需求规格说明文档,初步完成了工具的页面爬取模块。

  在研究开源爬虫时,调试过很多代码。如Nutch、JSpider、WebSPHINX等,由于不合适都放弃了,而Arachnid、WebLech虽然代码简单,但是很难扩展复杂的功能,所以也不能用于项目。最后选用的是Heritrix。它是一个爬虫框架,始于2003年初,目前仍在更新。版本号是1.14.3。它的优点主要是主题爬虫(集中于被选择的问题)、持续爬虫(更新网页的爬取)、可扩展(组件可更换);但也有缺点,如Windows环境下配置复杂、资源占用多等。由于维基百科网站的词条页面都很有规律,所以可以定制正则表达式来抓取相应URL:http://en.wikipedia.org/wiki/[\\d]。写一个继承自Extractor的新类,继承innerProcess(curi)的方法。目前可以成功的爬取网页。

  周日晚上开了组内交流会,汇报了本周工作,交流了一些问题,明确了下周工作计划。

存在的问题:

  需要找到合适的方法为爬取下来的网页去噪,只留需要的信息。Heritrix的整合存在问题,由于代码复杂,完全整合进工具很难。由于实验室的网络环境,Heritrix无法用代理连接英文维基百科网站。

下周计划:

  开始撰写设计说明文档,重点是子模块的设计。准备汇报页面过滤、Web对象关系抽取方法。

2009年3月23日星期一

使用搜狗浏览器的教育网代理进行下载

  搜狗浏览器[1],号称有许多特色功能:“多任务异步浏览”(multi-task asynchronous browsing)实现了每个页面异步独立读取、网页视频的独立播放器、教育网浏览加速等。



  我最初使用搜狗浏览器也是因为它为教育网提供的自动代理。此代理甚强,如果用户处于教育网,它会自动创建子进程at1.dll启动。它的智能性表现在,只有当用户访问以前无法访问的外网时,才会起作用,而且速度和稳定性均超过我们实验室的代理。与Google的代理GAppProxy相比,它也不存在前者无法下载文件的问题。可以说,这是它得到多数教育网用户青睐的主要原因。

  然而搜狗本身只提供基于浏览器的下载,不能满足广大用户的下载需求。在此,共享一种让迅雷使用搜狗代理下载文件的方法。其实很简单,搜狗的教育网加速代理在本地的地址是通用的127.0.0.1,端口则不常见,是8081。因此,只需在迅雷中设置这种代理就可以快速下载国外网站的文件,当然,前提是保持搜狗浏览器不被关闭。

  网络上还有人发现一种不启动搜狗浏览器就能使用代理的方法[2],原理是通过命令行启用at1.dll,不过这种方法需要Process Explorer[3]查看子进程,来获得搜狗根据用户机器设定的识别码。命令行如下,后面一串数字即是识别码,每台机器都不同:"D:\Program Files\SogouExplorer\SogouExplorer.exe" -proxy "D:\Program Files\SogouExplorer\at1.dll" "CNC" "5BF3BD42041B592B62779DF481E95F51 不过对于一般用户,这种方法有点麻烦,意义不大。

  搜狐为了推广搜狗浏览器,不惜为广大教育网用户架设代理服务器,算是花了血本。电驴用户把光下载不上传叫做“吸血”,认为这种行为会导致电驴的慢性死亡。回顾这一个月,我开着迅雷借用搜狗代理下载过不少文件,也有点像“吸血”了。如果再这样下去,不知搜狐会不会不堪重负停止这项免费服务。不过,下半年我就不会再使用教育网了,搜狐,你再忍几个月吧 ...

参考资料:
[1] Sogou Explorer. http://ie.sogou.com/
[2] 发现用FF用搜狗浏览器代理的办法. http://groups.google.pl/group/fans/browse_thread/thread/74faf62c5b0a8532/7eb8c5625d2d36bb?#7eb8c5625d2d36bb
[3] Process Explorer. http://technet.microsoft.com/en-us/sysinternals/bb896653.aspx

2009年3月22日星期日

北航终于肯为Springer Link全文数据库掏钱了

  几周前,毕设前期调研时,查到的论文,除了学者主页上,经常只有SpringerLink[1]才有。当时北航图书馆网站上有则信息[2],大意是SpringerLink可以试用,但日期截止到2009年1月15日,早过了,我也只能懊恼。

  今天,有同学登录这网站,毫不费力下到了全文,我才惊异的发现,北航已经可以自由下载SpringerLink上的论文了。这对我来说,既是好消息,也是坏消息:好的是,近期涉及到一些关键技术的调研肯定离不开它;坏的是,从下半年以后可能再也用不上它了 ...



[1] SpringerLink. http://china.springerlink.com/home/main.mpx
[2] http://lib.buaa.edu.cn/wxzy/wxsjk/sysjk/t20081211_2182.htm

------------------------

附:SpringerLink简介

  SpringerLink是居全球领先地位的、高质量的科学技术和医学类全文数据库,该数据库包括了各类期刊、丛书、图书、参考工具书以及回溯文档。SpringerLink为科研人员及科学家提供强有力的信息中心资源平台。

  德国施普林格(Springer-Verlag)是世界上著名的科技出版社,该社通过Springer Link系统发行电子图书并提供学术期刊检索服务。目前共出版有530余种期刊,其中498种已有电子版,其检索系统名称为Link。

  SpringerLink通过纯数字模式的专家评审编辑程序,从以卷期为单位的传统印刷出版标准过渡到以单篇文章为单位的网络出版标准,现在已有超过200种期刊优先以电子方式出版(OnlineFirst),大大提高了文献网上出版的速度和效率,并保持了文献的高质量要求。Springer的发展目标是把OnlineFirst出版方式应用到所有SpringerLink提供全文服务的期刊上。

  SpringerLink电子期刊(全文)的学科覆盖有:生命科学Life Science (134种)、化学Chemical Sciences(52种)、地球科学Geoscience (61种)、计算机科学Computer Science(49种)、数学Mathematics(80种)、医学Medicine (221种)、物理与天文学Physics and Astronomy (58种)、工程学Engineering (61种)、环境科学Environmental (42 种)、经济学Economics (32种)和法律Law (12种)等(由于一些期刊内容在学科上的交叉,故存在同一种期刊被划分在多个学科的情况),其中大部分期刊是被SCI、SSCI和EI收录的核心期刊,是科研人员的重要信息源。

2009年3月21日星期六

【毕设】日志-2009.3.21

  中午来到实验室,调试了半天WebSPHINX,没能成功。WebSPHINX执行起来容易,但源码有些复杂,在没找到更好的教程之前不再研究它了。

  WebLech[1]是今天的一个意外发现,虽然很早就下过它的源码,但版本号0.0.3着实无法让人提起兴趣。《迅速搭建全文搜索平台-开源搜索引擎实战教程》[2]这本书里简要提到了WebLech。通过这些描述,我认为它可以支持简单的更新爬取,而且它的源码层次清晰,可以通过修改配置文件进行自定义爬取。只不过它没有提供数据抽取的功能,以后再仔细研究。

  那么回过头来调试Heritrix-1.14.3。参考过网络上一些资料,大多很麻烦,包括书本中的教程[3]。结合我自己的不断试验,总算找到了相对简易的方法。

在Eclipse中配置Heritrix:
1. 在Eclipse下建立名为Heritrix的Java工程项目,把heritrix-1.14.3-src.zip[4]解压到临时文件夹下,将临时文件夹下的lib目录、src目录下的所有文件夹复制到Heritrix项目下的根目录下;
2. 在Heritrix项目下,将Heritrix/conf/下的modules目录剪切到Heritrix/下,将Heritrix/java目录下的所有文件剪切到Heritrix/下;
3. 将Heritrix/lib下的所有的jar文件导入工程;
4. 在Eclipse下运行主类org.archive.crawler.Heritrix。



直接运行Heritrix:
1. 下载heritrix-1.14.3.zip后,将其解压到C:\Heritrix文件夹下。将
heritrix/conf/jmxremote.password.template复制到Heritrix的根目录下,并将其重命名为jmxremote.password;
2. 将heritrix-1.14.3.jar解压到一个临时目录,然后将里面的profiles文件夹复制
到heritrix/conf/目录下;
3. 打开heritrix/conf/heritrix.properties,为heritrix.cmdline.admin = 添加用户名和密码,如heritrix.cmdline.admin = admin:admin ;
4. 打开cmd命令行窗口,进入到heritrix/bin下,输入命令heritrix --admin=admin:admin,会弹出另一个窗口,说明运行成功;
5. 在浏览器中输入http://127.0.0.1:8080/ ,接着输入用户名和密码就能使用。



  由于维基百科网站的词条页面都很有规律,所以可以定制正则表达式来抓取相应URL:http://en.wikipedia.org/wiki/ [\\d]。写一个继承自org.archive.crawler.extractor.Extractor的新类,继承innerProcess(curi)的方法。不过由于实验室的网络环境,Heritrix无法用代理连接英文维基百科网站。

参考资料:
[1] WebLech URL Spider. http://sourceforge.net/projects/weblech/
[2] 于天恩. 迅速搭建全文搜索平台-开源搜索引擎实战教程. 清华大学出版社, 2007, 10.
[3] 邱哲, 符滔滔. 开发自己的搜索引擎-Lucene2.0+Heritrix. 人民邮电出版社. 2007, 06.
[4] Heritrix: Internet Archive Web Crawler. http://sourceforge.net/projects/archive-crawler/

【转载】游戏与现实:H.A.W.X比拼Google Earth

【按:转自驱动之家,下面的图片令人叹为观止。最后一张图,其实还是有五角大楼的,只不过大小和位置与游戏中不同。显然,游戏是为了突出标志性建筑物而放大了它。】

  《Tom Clancy's H.A.W.X》虽然是一款空战题材游戏,但对地面环境的刻画也是细致入微,开发商育碧甚至动用了GeoEye公司的全球首颗高分辨商业卫星IKONOS拍摄的照片,而说起卫星照片,就不能不提Google Earth,同时不要忘了,GeoEye公司正是Google Earth卫星照片的提供商之一。

  这里我们就看看一些同样的地方在游戏里和卫星照片上有何异同。粗略地看,《H.A.W.X》在大概地貌上和Google Earth十分相近,河流、道路、机场、体育场、山脉等显著地貌特征一应俱全,几乎已经能够以假乱真,当然由于照片的局限性,Google Earth里的建筑物都只能看到一个平面,而《H.A.W.X》让它们立了起来。注意:最后一张卫星照片里的美国国防部五角大楼被人为掩盖了。

  还有一段视频,由育碧和GeoEye分别介绍了双方之间的合作:http://www.youtube.com/watch?v=ppda1JMb0es



















2009年3月20日星期五

【毕设】日志-2009.03.19

[日志] 2009.03.19

  今天很早就来到实验室,上午补充了一下需求分析,暂时算是完成了一个版本。

  下午对比了几个爬虫,暂时没想好修改哪个。Heritrix太过复杂,JSpider又不容易添加新功能。我一个同学曾经使用过一个简单的开源爬虫,有时间向他请教一下。

  晚上调试爬虫代码,无聊之余,记得维基百科本身也提供XML数据集供人下载,于是到下载页面Wikimedia Downloads[1]研究了一下。数据真的很多,而且还提供SQL的格式,这对我构建知识库的结构也是重要的参考。然而这也产生了另外一个问题:爬虫的效果有没有这些资料文件好呢?目前只想到这些:一、爬虫爬取页面时,可以同时做简易分析,略过很多不相关的网页;二、如果爬虫效率较低,不妨使用维基本身提供的数据集,这样一来,构建工具的爬虫模块就要取消,或者说至少不再算作重要的一环。到底怎样处理,还是要做进一步的实验。总之,先把本周的工作任务完成。

参考资料:
[1] Wikimedia Downloads. http://download.wikipedia.org/

-------------------
[日志] 2009.03.18

  今天上午和下午都有面试,饱受奔波之苦不说,毕设的进度又成问题了 ...

  晚上来到实验室,继续修改需求分析。

-------------------
[日志] 2009.03.17

  上午去上地参加一个面试。中午回到实验室,继续研究爬虫代码。WebSPHINX似乎可以进行修改。

  晚上改需求分析文档,虽然上次开会提到了一些问题,但是实际改起来还是比较有难度。

2009年3月19日星期四

Wikipedia文言文版:维基大典

  因为毕设的东西基于维基,所以对维基百科比较关注。今天偶然看到竟然还有文言文的版本。

  维基大典:http://zh-classical.wikipedia.org/wiki/%E7%B6%AD%E5%9F%BA%E5%A4%A7%E5%85%B8:%E5%8D%B7%E9%A6%96

  里面的词条颇有古风,但也不乏趣味。例如飞机:“飛機者,翱翔碧落之器也。公元一九零三年,美利堅萊特兄弟始製之。形似飛鳥,翼身皆鐵,腹匿動機,旋氣而翔空。其行捷甚,須臾千里,可越聲速。今者工其技,諸類多產,頗為軍民所用。”

  还有几个,与君共赏。

  中华人民共和国:http://zh-classical.wikipedia.org/wiki/%E4%B8%AD%E8%8F%AF%E4%BA%BA%E6%B0%91%E5%85%B1%E5%92%8C%E5%9C%8B

  共和国本纪:http://zh-classical.wikipedia.org/wiki/Category:%E4%B8%AD%E8%8F%AF%E4%BA%BA%E6%B0%91%E5%85%B1%E5%92%8C%E5%9C%8B%E6%9C%AC%E7%B4%80

  中华民国:http://zh-classical.wikipedia.org/wiki/%E4%B8%AD%E8%8F%AF%E6%B0%91%E5%9C%8B

  民国本纪:http://zh-classical.wikipedia.org/wiki/Category:%E6%B0%91%E5%9C%8B%E6%9C%AC%E7%B4%80

2009年3月16日星期一

【毕设】日志-2009.03.16

  本周开始着手页面爬取模块的实现。

  先对昨天开会时师兄提到的Lucene[1]作了更详细的调研,有了一些了解。一般说来,Lucene是指全文检索引擎。有人在此基础上加入Heritrix等爬虫,作为简易搜索引擎来使用[2]。而Lucene的原作者,资深全文检索专家Doug Cutting也建立了一个新的项目,开源搜索引擎Nutch[3]。Nutch包括Crawler和Searcher两部分,后者的查询功能就是基于Lucene的。

  目前有这样几种思路:继续Heritrix的调试,看看它是否可以满足需求;研究Nutch的Crawler代码,是否比Heritrix更好用;继续调研,决定用Lucene还是MySQL,或是两者都用。针对最后一点,稍作说明。根据目前的调研结果,Lucene某种程度上也可以取代数据库,它的全文检索功能比MySQL要强大,但若要实现关系数据库的复杂功能,Lucene却无能为力。

  下午研究了一下Nutch,它只能运行在Linux下,如果想在Windows中使用,要通过Cygwin来模拟Unix环境。这样做比较麻烦,而且不利于以后的模块整合。 晚上开始看JSpider[4],是一个03年的JAVA开源爬虫。之前由于认识上的误区,以为旧爬虫不如新爬虫,就没过多关注这个JSpider,经师兄提醒才明白需求是第一位的。JSpider运行起来比较简单,通过命令行输入:jspider http://en.wikipedia.org/ download 即可下载整个网站。它提供的文档也比较详细,按理说本可列为重点研究对象,但是通过进一步查阅网上评论,发现很多网友都认为JSpider的扩展很麻烦。



  网上还有人推荐WebSPHINX[5],我下载源码后发现编程环境是Linux,但是在Windows下也能运行。它的界面还是挺有特色的,不知功能扩展修改起来方不方便,明天再研究。



参考文献:
[1] Apache Lucene. http://lucene.apache.org/java/docs/index.html
[2] 白坤, 耿国华. 基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J]. 计算机应用与软件, 2009, (01).
[3] Nutch. http://lucene.apache.org/nutch/
[4] JSpider. http://j-spider.sourceforge.net/
[5] WebSPHINX. http://www-2.cs.cmu.edu/~rcm/websphinx/

【毕设】每周情况-第4周

本周完成情况:

  本周主要完成了需求规格说明文档,以及构建工具的模块功能图和知识库的结构图。

  WordNet是对本毕设有重要参考价值的一项工程,本人阅读了它提供的C语言API。其中主要包括数据库查询函数、词法函数、实用函数等。因此,对本毕设的构建工具外部接口应该提供查询、遍历等功能。而对于知识库的结构,目前已确定的有以下几项:对象(实体、类别)、关系(类别—类别、实体—实体、子类—父类、实体—类别)。后半周主要在调试一些开源的爬虫代码,如Jspider、Heritrix-1.14.3,前者是02年的代码,后者一直到现在还在更新。

  周日晚上开了组内交流会,汇报了本周工作,交流了一些问题,明确了下周工作计划。

存在的问题:

  本周花了一些时间参加招聘会,以及两个公司的笔试。所以毕设方面进度较慢。

  另外,开源代码的调试过程中存在一些小问题。知识库的存储格式尚未最终确定。需求规格说明文档写的不够详细,还需要补充。

下周计划:

  修改需求规格说明文档。开始做工具的爬取网页模块,开展实质性的工作。

2009年3月15日星期日

豆瓣的“奇书”与“弱书”

  很偶然的机会,看到豆瓣这两个书标签:“奇书”、“弱智书籍”。网友们实在太有爱了,陈年旧事都能翻出来 ... 联想到前些天豆瓣迫于压力解散一些小组的新闻,不禁感慨:如此低俗,被河蟹是活该的 ... 虽然这些都是正规出版物 ...

  豆瓣成员把这些标注为“奇书”:
http://www.douban.com/book/tag/%E5%A5%87%E4%B9%A6

  摘要:《怎样鉴别黄色歌曲》、《党的知识幼儿读本》、《葫芦娃大战变形金刚》、《金日成花金正日花栽培方法》、《少林达摩易筋经图解》、《怎样加入中国GCD》、《贪污贿赂案件审讯技巧》、《相会外星-黑猫警长大战外星人》、《社会主义中国不容诬蔑》、《打飞机英雄集》、《怎样打飞机》...

  豆瓣成员把这些标注为“弱智书籍”:
http://www.douban.com/book/tag/%E5%BC%B1%E6%99%BA%E4%B9%A6%E7%B1%8D

  摘要:《中国不高兴》、《金正日论歌剧艺术》、《爷爷激励我成长》、《三鹿人成功之路》、《身体腾空特异功能修持密法》...

2009年3月14日星期六

关于兹·布热津斯基的书

  今天看到一本书的下载,[美]兹·布热津斯基:《大失败 - 20世纪共产主义的兴亡》https://125.52.95.10/BBS/SCM/SCM1040.do?method=downloadAttach&messageNum=2559

  这本书由军事科学院外国军事研究部译,1989年10月出版,号称“有组织的内部发行”,令我很感兴趣。大概看了一下目录,基本是按苏联、东欧、中国的顺序讲下来的。针对这本书,国内学者已有多次批驳,例如http://myy.cass.cn/file/200512194452.html,虽然论证逻辑跟大字报没什么两样。浏览了此书的前言,作者的用词很大胆。到维基百科、Google等搜了一圈,发现这大哥还挺有意思。

  维基中文版介绍如下,倾向性比较明显:

  兹比格涅夫·布热津斯基(Zbigniew Kazimierz Brzezinski,1928年3月28日生于波兰华沙),著名的波兰裔美国国际关系学者、地缘战略家、国务活动家。卡特政府的国家安全顾问,目前美国重量级智囊之一。政策风格:崇尚外交政策实用主义,为了取得和维持美国独霸世界的目的,任何手段都属合理范围。“奶头乐”理论(tittytainment,英语titts“奶头”与entertainment“娱乐”的拼合词):要使全球80%被“边缘化”的人(发展中国家和东欧前社会主义国家的人)安分守己,20%搭上全球化快车的人(指发达国家的人)可以高枕无忧,就需要采取色情、麻醉、低成本、半满足的办法解除被“边缘化”的人的精力与不满情绪。

  维基英文版链接如下,有兴趣的可以仔细看看:http://en.wikipedia.org/wiki/Zbigniew_Brzezinski

  主要著作如下,标题有气吞山河之势:

《永恒的清算-苏联极权主义下的政治》(The Permanent Purge: Politics in Soviet Totalitarianism)(1956)
《苏联集团-统一和斗争》(Soviet Bloc: Unity and Conflict)(1961)
《两个时代之间》(Between Two Ages : America's Role in the Technetronic Era)(1970)
《实力与原则-布热津斯基回忆录》(Power and Principle: Memoirs of the National Security Adviser)(1983)
《竞赛方案-进行美苏竞争的地缘政治纲领》(Game Plan: A Geostrategic Framework for the Conduct of the U.S.-Soviet Contest)(1986)
《大失败-二十世纪共产主义的兴亡》(Grand Failure: The Birth and Death of Communism in the Twentieth Century)(1989)
《失控-解读新世纪乱象》(Out of Control: Global Turmoil on the Eve of the 21st Century)(1993)
《大棋局-美国的首要地位及其地缘战略》(The Grand Chessboard: American Primacy and Its Geostrategic Imperatives)(1997)
《大抉择-全球统治或全球领导》(The Choice: Global Domination or Global Leadership)(2004)、
《第二次选择》(Second Chance:Three Presidents and the Crisis of American Superpower) (2007)
《美国与世界-关于美国外交政策未来的对话》(America and the World:Conversation on the Future of America Foreign Policy) (2008)

2009年3月13日星期五

【毕设】日志-2009.03.13

  上午9点半来到实验室,继续写第四周工作汇报PPT,晚上开会要用。下午参加神舟航天软件公司的专场招聘,公司不错,门槛应该会很高。

  白天也做了一些工作,研究Heritrix。它是一个爬虫框架,始于2003年初,目前仍在更新。版本号是1.14.3和2.0.2,前者更加稳定。它的优点主要是主题爬虫(集中于被选择的问题)、持续爬虫(更新网页的爬取)、可扩展(组件可更换);但也有缺点,如Windows环境下配置复杂、资源占用多等。

  调试Heritrix-1.14.3-src用了很长时间,仍然有些错误。目前只能跑起来它的可执行程序,管理界面是基于浏览器的。





  另外,对于WordNet的存储方式,很多人说它是用文本来存储的。WordNet官网提供的文档讲了索引的格式,至于具体的存储结构,还没看到。 这些天的工作效率不高,被找工作、笔试之类的琐事困扰。周六周日要好好调整一下。

2009年3月11日星期三

【毕设】日志-2009.03.11

  继续编写需求分析文档。下午与曹同学讨论了一些JAVA方面的东西。完成了需求分析文档的初稿,上传到毕设FTP和本站点。

  知识库具体的存储结构要根据后续项目的详细设计而定。目前可以确定的是知识库包含的项:对象(实体、类别)、关系(类别—类别、实体—实体、子类—父类、实体—类别)。

  用Visio画了知识库涉及的结构示意图:



  明天下午有一个笔试,要好好准备一下。

2009年3月10日星期二

【毕设】日志-2009.03.10

  上午在新体育馆参加本学期最后一次大型招聘会。忙到下午1点多,回寝休息到3点后来到实验室。

  下午查到的爬虫源码有jspider-src-0.5.0-dev、heritrix-1.14.3-src,前者是02年的代码,后者一直到现在还在更新,代码量都很多。

  晚上看了一下曹同学给我的prefuse源码,很费力。一年多没怎么用JAVA,东西都快忘光了 ... 本星期剩下的几天也许会收到笔试通知,因此毕设进度有点慢,尽量赶吧。

2009年3月9日星期一

【毕设】日志-2009.03.08

  上午在实验室花一小时查找招聘信息投递简历,之后搭建JAVA开发环境。

  下午仔细研究WordNet的相关资料。WordNet的建立者只提供C语言的API,其他语言API都是另外的开发人员所编写的。

  关于C语言API的文档链接如下:http://wordnet.princeton.edu/man/wnintro.3WN

1. Database Searching Functions(数据库查询函数,search.o)
包括findtheinfo(主要查询函数)、getindex(从索引文件中查找)、read_synset(获取同义词类别信息)等13个;

2. Morphology Functions(词法函数,morph.o)
包括morphinit(打开批注列表文件)、re_morphinit(关闭批注文件)、morphstr、morphword(从句法范畴获得词条基本形式);

3. Utility Functions(实用函数,wnutil.o) 包括wninit(打开数据库文件)、cntwords(单词计数)等21个;

4. Binary Search Functions(折半查找函数,binsrch.o)
包括bin_search、copyfile、replace_line、insert_line;

  晚上修改需求分析文档。昨天用Visio画了一个工具模块框架图,与之前开题报告的图大同小异 ...

2009年3月8日星期日

读新闻-2009.03.08

【按:不发表任何观点。】

(VOA)中国网民巧妙绕过防火墙表达不满
记者:东方 香港 Mar 7, 2009
http://www.voanews.com/chinese/w2009-03-07-voa37.cfm

摘要:通过恶搞嘲讽政府整肃网站运动;视频儿歌掀起反抗狂潮;公众意见表达渠道不畅是恶搞的原因;整肃网站运动激起民愤。

(VOA)中国举行阅兵计划遭到一些人反对
记者:陈苏 华盛顿 Mar 7, 2009
http://www.voanews.com/chinese/w2009-03-07-voa46.cfm

摘要:茅于轼-独裁者钟爱阅兵游戏;章立凡-需要搞清阅兵的目的;章立凡-纳税人有权知道阅兵预算。

虽然中国解放军退役少将徐光裕少将对香港媒体透露,他估计今年国庆阅兵总开支为6亿元人民币,比1999年大阅兵花费要少很多,但是在全民共度时艰的金融危机之年,人们仍然担心国庆阅兵费用。中国经济学家茅于轼引用已故中国社科院副院长李慎之透露的数字,1999年全国为准备国庆庆典,花费了上千亿元。

(VOA)中国媒体对两会的报道受外界批评
记者:萧洵 华盛顿 Mar 7, 2009
http://www.voanews.com/chinese/w2009-03-07-voa47.cfm

摘要:两会报道不触及实质问题;李大同-中国议会制无效是原因;凌沧洲-网络媒体也难有突破。

(BBC)花絮为"两会" "派对"锦上添花
蒙克 2009年03月06日
http://news.bbc.co.uk/chinese/simp/hi/newsid_7920000/newsid_7929000/7929067.stm

摘要:"雷人提案","哗众取宠";代表"缺乏"和"过剩"。

【毕设】每周情况-第3周

本周完成情况:

  周一晚上进行第一次组内预答辩,我和同组的曹俊超同学都暴露出了一些问题。晚上回寝改文档,由于思路较慢,改到凌晨4点才完。周二下午,周师兄对我的PPT演示文稿作了很多修改和建议,晚上的第二次预答辩,我们的表现明显要好得多。

  周三上午是正式答辩,答辩委员会有熊桂喜老师、李炜老师等。作为第一个答辩的学生,我整个答辩过程比较顺利,也回答了老师们提出的两个问题,分别是树的存储结构和毕设实现环境。

  之后的两天主要对一些关键技术的细节作了研究,精读了两篇英文论文。周五下午,开组内交流会,马师兄给我们布置了下一周的工作内容。周六周日主要在编写需求分析文档。

存在的问题:

  预答辩时暴露出的问题主要有:毕设背景模糊,让人看不出为什么要去做;国内外研究现状介绍太多,缺乏条理逻辑。正式答辩存在的问题是,由于怕超时,所以压缩了汇报时间,导致个别老师对我毕设的细节理解有误。实际上不需要考虑时间的问题,因为其他人都超时了,老师也没有记时。

  这一周工作比较累,后几天的工作进度较慢,需要迅速调整好工作状态。

下周计划:

  继续需求分析,完成需求规格说明文档。与马师兄讨论确定知识库的存储结构。调研其他知识库的存储技术,选取合适的爬虫,下周五汇报工作内容。

2009年3月7日星期六

【毕设】日志-2009.03.07

下午与师兄讨论了几点问题。

1. 知识库存储的重点:实体、类别、关系(类别-类别、实体-实体、子类-父类、实体-类别)。

2. API的重点功能:增、删、改、查。

3. 知识库的更新:包括定时更新、按修改日志更新。

4. 词条的全文检索:还包括实体上下文的显示。

2009年3月5日星期四

关于曹豫生《转基因粮食你接受吗?》

  订阅了路透博客,发现了这篇文章曹豫生《转基因粮食你接受吗?》,作者对转基因作物的理解似乎还停留在公众的层次,当然,作为博客写出来也无可厚非。

  科学家没有作者想象的那么弱,对于已上市的转基因作物,好处远大过害处。下面纠正作者几个常识性错误。

  作者说的“不过棉花不是食品,所以它的安全性我并不很担心。”,在80年代正是美国科学家所担心的 —— 转基因抗虫作物流入自然界,是否会与其他作物杂交出抗虫超级作物,影响生态平衡?所以当时进行了严格的实验,但是后来担任过中国农大校长的陈章良当年回国的时候,擅自带走了美国实验室的转基因抗虫作物,并在海南开始大规模试种。产量效果当然是显著的,却也遭到了美国几位顶级科学家的严厉批评。还好,科学家担忧的破坏生态环境问题没有出现。提到这些主要是为了说明国际科学界对此事的重视,而批准上市的转基因作物在各方面的安全问题都作了严格的实验,有的甚至超过十年时间,远不是作者想象的那么简单。

  再看这一句:“另外,我想‘没有证据表明什么东西有害’和‘这样东西无害’是两个完全不同的概念,用这样的话表明支持者也不是很有把握。”我也不是学生物的,但我认为真正的生物学家永远也不会讲“这样东西无害”,这种话本身就是不严谨的。

  关于转基因的科普文章,作者可以看看方舟子写的这几篇:

  别怕,不是要转你的基因
http://xys3.dxiong.com/xys/netters/Fang-Zhouzi/bkb/transgenic_rice.txt

  如何看待转基因技术?
http://xys3.dxiong.com/xys/netters/Fang-Zhouzi/bkb/transgenic_rice3.txt

  如果认为文章中哪里有错误,可以再提出来。欢迎探讨。

-------------------------
【补:曹豫生的回复,似乎没什么说服力。看来作者宁肯相信绿色和平组织了 ... 】

2009年03月05日17:44 BJT 方舟子和我一样,都不是转基因技术的专家,因此我们的看法都无法避免的停留在“公众”层次,无非是他的名气大一些,看法却未必就对。不过看他的文章也没有否定我的看法,我们只是各说各话。最终是否使用转基因食品,选择权应该在公众手里,因此,“公众”层次的看法还是非常重要的。
- 作者 曹豫生
-------------------------

2009年3月4日星期三

几篇关于雷锋的文章

【按:偶然看到穆正新写的关于雷锋的文章,就仔细搜索了一下,没有搜到他的博客,但是有很多转帖。另外,包括“路在脚下”等网友,都作了详细的考证,根据十足的论据提出了尖锐的观点。窃以为,说的都对。】

穆正新:雷锋是“正搞”出来的英模
http://truechina.blog.hexun.com/9243876_d.html

穆正新:论助人为乐精神 雷锋从未超过普通中国人 http://truechina.blog.hexun.com/9243813_d.html

穆正新:雷锋捐款假案
http://blog.focus.cn/group/blogforum_detail.php?blog_id=1490984&msg_id=157054109

穆正新:看雷锋‘积肥假案’怎样戏弄公众智力
http://swinging-breeze.blogspot.com/2009/03/blog-post.html

路在脚下:谎言编织的雷锋故事(1)
http://truechina.blog.hexun.com/9243996_d.html

路在脚下:谎言编织的雷锋故事(2)
http://truechina.blog.hexun.com/9244070_d.html

吴侃:再现雷锋的故事
http://truechina.blog.hexun.com/9243794_d.html

从容:雷锋做好事从来不留名——只留照片
http://truechina.blog.hexun.com/9243570_d.html

一家村主:一出上演了四十余年的荒诞闹剧 - 学雷锋http://blog.sina.com.cn/s/blog_4890ebff010008z7.html

2009年3月2日星期一

【毕设】每周情况-第2周

本周完成情况:

  周一写完了国内外研究现状综述文档,并作了PPT。晚上与周师兄、马师兄等开会讨论,汇报了调研成果。课题组另一成员曹同学也作了汇报。发现了不少问题,第二天马师兄分别与我们两个交流,再次明确了工作内容、题目意义等。

  后来用两天时间作了补充调研工作,在周五晚上与几位师兄再次开会交流,作了补充调研报告,同时也加上了自己对工作目标与内容、研究路线及关键技术的思考。师兄们提了不少建议,给我不少新的思路,对一些技术路线问题有了新的认识。

  后半周的时间主要用来完成开题报告,由于之前写完了调研综述文档和两个PPT,所以写初稿很快。周六周日也来到实验室,继续修改开题报告相关的文档。一切都在预计以内。

存在的问题:

  第一周对题目的理解有误,所以调研方向偏重于Wikipedia的相关研究,而忽略了知识库的基本概念、构建方法。后来虽然进行了补充调研,但是整个开题的思路有了变化,导致开题报告里国内外研究现状部分的逻辑性有点差。用了半天时间来仔细思考,决定分为四个部分:基于Wikipedia的语义抽取研究、基于Wikipedia的项目应用、知识库的构建、大型知识库的应用。

  开题报告文档还存在细节上的问题。

下周计划:

  完成开题报告,迎接开题答辩,完成项目需求分析。

  如有时间,对项目所需的关键技术进行细致的调研。

有关抗日战争 —— 读钱文军博客

【按:以下内容转自钱文军博客。只摘录部分段落,如果有人觉得论据不全,请去读原文。】

台儿庄大捷七十年了
(2008.4.10;12发老三届、华知)
http://www.blogchina.com/20080417513488.html

  翻开一部中华史,抗日战争堪称最辉煌的一页,无论怎样高估都不为过,因为它是本民族惟一一次既正义又完胜的国际战争。例如,薛岳将军指挥的三次长沙会战大捷,不但废除了百年来那些不平等条约,还使中国获得世界四大国地位,成为联合国发起国及安理会常任理事国。长沙大捷的消息传出,美国国会正好复会,全体议员自动起立并长时间鼓掌欢呼,随后,参众两院一致通过向中国提供5亿美元的财政援助,同时英国也宣布提供5000万英镑的贷款,这两笔钱超过了国民政府当年的全部预算。英国首相邱吉尔在渥太华发表演说:“诸君如忆及日军之活跃,即知中国抵抗敌人至五年之久,并予敌人以打击,为如何不可思议之事。”罗斯福致电蒋介石:“中国军队对贵国遭受野蛮侵略所进行的英勇抵抗已经赢得美国和一切热爱自由民族的最高赞赏。”谁“反华”呢?可是我们现在却看不到任何纪念,《小兵张嘎》改来改去一拍再拍,长沙大捷却杳无音讯。毛博士说:“我爷爷领导了中国的抗日战争。”22次代表国家尊严的大会战没有一次跟他爷爷有关,当然得忘掉,以免去“爱蒋介石的国”。

------------------------
也谈张学良的功与过
(2001.10.18发《史海钩沉》)
http://www.blogchina.com/20070623314824.html

  抗日战争史至今仍是一本糊涂账。我们学的历史告诉我们,全靠小兵张嘎配合李向阳,在青纱帐里挖地道、埋地雷打败日本侵略军的。日本军史记载着他们究竟在跟谁打仗。德国著名军事家克劳塞维茨的《战争论》指出:主力决战“是战争的真正的重心”,“消灭敌人军队主要是通过大会战及其结果实现的,大会战又必须以消灭敌人的军队为主要目的。”日军在中国的所有会战都是同老蒋打的。仅武汉会战日军便投入14个师团,占当时日本全国军力34个师团的1/3强。日军战史记载:“陆军为汉口作战倾注了全力,没有应变之余力。”就连日本本土仅剩的一个近卫师团,也奉命随时增援武汉会战。

  正是老蒋领导的中国军队在抗日战争中杰出表现,为中国赢得了世界大国的地位。1942年元旦,联合国宣言确定美、英、苏、中为领头签字的四大国;2月7日,罗斯福总统致电老蒋:“中国军队对贵国遭受野蛮侵略所进行的英勇抵抗已经赢得美国和一切热爱自由民族的最高赞誉”;1943年10月,中国参加签署事关世界普遍安全的《四国宣言》;11月18日,老蒋参加开罗三大国首脑会议,并发表《开罗宣言》。这是世界近代史上从未有过的,如果说:“雪耻”,到此已经基本做到了!

  由此可见,西安事变对于抗日战争是没有什么贡献的,对于东北军更是赔本买卖。它的全部贡献就是使中共转危为安,并得到了成长壮大的机遇。当我们指责日本篡改历史的时候,我们自己的历史又如何呢?

2009年3月1日星期日

关于少先队队歌的歌词

用酷我音乐盒搜了几首老歌,听到这首《中国少年先锋队队歌》时,百感交集。旋律是那么熟悉,小时候经常领唱。

然而现在回味起来,这首歌的歌词很不合适,政治意味太强,虽然少先队也是一种政治组织。

“狼奶”。

------------------
相关资料:

这是第二首队歌,作于1962年,周郁辉词,寄明曲,是故事片(英雄小八路)的主题歌,原名(我们是共产主义事业接班人)。1978年后经中国共产主义青年团第十届中央委员会第一次全体会议通过,定为《中国少年先锋队队歌》。

歌词:

我们是共产主义接班人,继承革命先辈的光荣传统,爱祖国,爱人民,鲜艳的红领巾飘扬在前胸。不怕困难,不怕敌人,顽强学习,坚决斗争。向着胜利勇敢前进,向着胜利勇敢前进,前进,向着胜利勇敢前进,我们是共产主义接班人。

我们是共产主义接班人,沿着革命先辈的光荣路程,爱祖国,爱人民,少先队是我们骄傲的名称。时刻准备,建立功勋,要把敌人,消灭干净。为着胜利勇敢前进,为着胜利勇敢前进,前进,为着胜利勇敢前进,我们是共产主义接班人。
  

街头霸王4 PC版今夏上市

【按:转自驱动之家,Zhengogo的大作。在A9VG上也看到,说是7月份上市。】

卡普空负责战略规划及商务开拓的副总Christian Svensson在接受VideoGamer的采访时被问及《街霸4》PC版何时能到来,他对此答道:

“应该是夏天吧。”

接着他又补充道:“现已铺货的Mad Catz摇杆及键盘对PC同样适用,届时我们可能会与Mad Catz商量,看看能不能搞一个与摇杆同捆的PC版街霸套装。”

看到这里,可能会有同学得意地举手答道:“哦,这个我知道,上市日期是6月30号!”

但这其实只是零售商安排的档期,意思是6月30号之前到货。该作原本预定在今年第二季出货,即4月1号至6月30号之间任何一天都有可能;再加上现在又得到一个更为模糊的“今年夏天”,所以具体上市日期还真不好说。

卡普空英国公司更是直言目前并无确切发布日期:

“至于《街霸4》PC版,我们尚未宣布具体上市日期,游戏会包括哪些同捆外设也尚未有定论。”