+
 新版
2013-08-13 10:00
对于长期的垂直抓取,频率过快或者稍微快点就被封或者连接被重置,频率过慢效率太低,不知道大家都怎么解决的。作者介绍下这方面的经验呗 (:
2013-08-13 08:42
新浪微博能不能爬取啊 有的是ajax实现的
2013-08-12 22:01
不错, 看看先、
2013-08-12 21:44
马克之,以前写过这种东西,完全是一点点扣出来的。。。好
2013-08-12 19:43
火车头
2013-08-12 17:38

引用来自“lidongyang”的评论

下一步准备添加什么功能呢?

有两个想法:1、实用性路线,完善辅助工具,减少提取/测试XPath等规则的难度;2、规模化路线,分布式爬虫监控/动态加载规则等。

我觉得第一个比较有用一点,第二个更上档次一点 (:。
2013-08-12 17:06
下一步准备添加什么功能呢?
2013-08-12 15:48
刚看了下,值得学习。
2013-08-12 15:21
关注
2013-08-12 14:58
强!
2013-08-12 13:14
学习了~
2013-08-12 13:00
解释一下啥叫垂直爬虫框架
2013-08-12 12:38
乍一看,还以为是weblogic
2013-08-12 12:30

引用来自“黄亿华”的评论

引用来自“大案要案命案在身”的评论

垂直 是啥意思·? 是为了说明他很碉堡么

就是说抓特定网站的,跟通用爬虫区别开来而已啦

哦 哟西···
2013-08-12 12:04
非常支持,我也在研究这块
2013-08-12 11:48

引用来自“大案要案命案在身”的评论

垂直 是啥意思·? 是为了说明他很碉堡么

就是说抓特定网站的,跟通用爬虫区别开来而已啦
2013-08-12 11:45
垂直 是啥意思·? 是为了说明他很碉堡么
2013-08-12 11:13
好东西,支持下。
回复 @
{{emojiItem.symbol}}
返回顶部
顶部