准备用netty写个分布式爬虫,有搞过的吗?

多多儿小说网 发布于 2016/09/26 23:09
阅读 893
收藏 0

准备用netty写个分布式爬虫,有搞过的吗?

我的小说网站目前是单机抓取数据的,单机效率太差,计划写个分布式攫取的。目前只有一个简单的思路,就是用netty做消息传输,任务调度。

有搞过的吗?谢谢分享

多多儿小说网

www.dodoer.com

加载中
0
乌龟壳
乌龟壳
单机就能上千个线程了,性能差在哪里?如果你说多台机器,每台多线程也不差啊,小规模爬虫没必要用netty,因为爬虫不是io密集型的,而是半io半cpu密集的。
多多儿小说网
多多儿小说网
回复 @乌龟壳 : 好的,谢谢
乌龟壳
乌龟壳
回复 @多多儿小说网 : 这么说吧,如果单台服务器并发连接没上2000,我觉得用netty不太值得。
多多儿小说网
多多儿小说网
回复 @乌龟壳 : 就算上了多台代理服务器,如果没有一个统一的UI,管理起来很不方便的,因此我想到了用Netty写个管理程序来控制多台机器
乌龟壳
乌龟壳
回复 @多多儿小说网 : 嗯,那就更和netty无关啦,你需要了解下如何使用代理服务器进行爬取。
多多儿小说网
多多儿小说网
效率低的原因主要是因为被爬的网站,对机单IP是限制的,频率过快就被限了,像这种非常规的Spider只能降低攫取的频次了。
0
平安北京
写一个中控服务,用于创建、分配任务,写个客户端服务模板,然后随便部署,改改配置文件
平安北京
回复 @多多儿小说网 : 以前搞过类似的东西,怎么都可以的,只要能保证通信
多多儿小说网
多多儿小说网
谢谢,再问个问题,任务如何分配,是有由一台机器统一调度,还是有个一任务池,每台客户机当任务结束以后,自动从任务池里去取任务,两个方法都有各自有优缺点,请问你有搞过吗?
0
K不是你的帝
K不是你的帝
没搜索框么?是否收录 《雪中悍刀行》?
K不是你的帝
K不是你的帝
回复 @多多儿小说网 : OK,多谢。
多多儿小说网
多多儿小说网
网站的左下角有个放大镜就是搜索入口
多多儿小说网
多多儿小说网
已经收录,搜索目前用的百度站内,后面有时间再搞个独立的搜索模块, 雪中悍刀行 http://www.dodoer.com/main/8837.html
0
lindent
lindent
搞个火车采集器就好,自己写bug又多,又耗时,写完几个月都过去了
多多儿小说网
多多儿小说网
这到没了解过,我看看,如果合适可以考虑下
返回顶部
顶部