请问有什么书或文章或开源软件是关于搜索引擎爬虫的?

qinuxman 发布于 2013/03/09 07:46
阅读 218
收藏 1
我自己写了个宽度优先爬虫,但是貌似和搜索引擎爬虫不太一样
加载中
0
Yu_Yang
Yu_Yang
larbin,c++写的,至于java的那有许多,另外那本叫信息检索的书挺有名的。
0
南湖船老大
南湖船老大
《深入搜索引擎--海量信息的压缩、索引和查询》
0
jsyang888
jsyang888

larbin 和 spiderman 做到的只有采集。

如何分析分词结果后自动分类入库,如何检查关键词变化(或其他检查更新方式),好像都没有吧.


0
Yu_Yang
Yu_Yang
没看到人家只是要一个爬虫吗?larbin的效率还是不错的,虽然按现在的观点它有很多需要改进的地方,比如那个url去重太简单了,现在的起码要个布隆过滤器,还有那个借助文本文件实现的url队列也不是太好,我曾经用C语言写的一个爬虫就是用berkeleydb实现的,一句话larbin作为学习爬虫的编写方法的源码还是不错的。。@jsyang888 
返回顶部
顶部