白天也做了一些工作,研究Heritrix。它是一个爬虫框架,始于2003年初,目前仍在更新。版本号是1.14.3和2.0.2,前者更加稳定。它的优点主要是主题爬虫(集中于被选择的问题)、持续爬虫(更新网页的爬取)、可扩展(组件可更换);但也有缺点,如Windows环境下配置复杂、资源占用多等。
调试Heritrix-1.14.3-src用了很长时间,仍然有些错误。目前只能跑起来它的可执行程序,管理界面是基于浏览器的。

另外,对于WordNet的存储方式,很多人说它是用文本来存储的。WordNet官网提供的文档讲了索引的格式,至于具体的存储结构,还没看到。 这些天的工作效率不高,被找工作、笔试之类的琐事困扰。周六周日要好好调整一下。

your blog is very fine......
回复删除Really? Your blog is full of advertisements ...
回复删除