开3个线程采集2000条数据时间平均4分钟,不加下载图片。这个效率怎么样呢?

Tanweijie 发布于 2013/12/01 23:09
阅读 368
收藏 0
开3个线程采集60条URL,2000条数据时间平均4分钟,不加下载图片。这个效率怎么样呢?
加载中
0
乌龟壳
乌龟壳

你可能需要C#,用异步,你就可以比较自由地选择并发采集的数量。(8000+)

java里默认是没有这个的,除非有一些我不清楚的库已经做了这些(虽然确实有能力做到和以上提到的C#一样的功能)。

Tanweijie
Tanweijie
java也可以的。
0
乌龟壳
乌龟壳
最简单一个问题,cpu占用如何?不高一般是没做到位,除非带宽真的很低。
Tanweijie
Tanweijie
还没看过cpu占用,今天看看。嘿嘿
0
kiwivip
kiwivip
2000条4分钟,平均1s下载8个网页,速度可以了,如果是外国的大网站,这个效率就很可观了~
Tanweijie
Tanweijie
因为之前也没有了解过这个效率的问题,不懂使用Python之类来写的话速度怎么样,所以没有参照就不懂了。还有就是要收集的网站有很多js动态数据,要先使用Selenium来渲染,所以速度更会慢点。
0
你要爪子
你要爪子

在服务器上跑的还是开发机子?

在开发机上跑速度很不错了。

Tanweijie
Tanweijie
回复 @你要爪子 : ==。不懂呐。
你要爪子
你要爪子
回复 @Mr_Tank_ : 你这样速度的访问。别人不封你ip么。。。
Tanweijie
Tanweijie
在我的破笔记本上跑的。开到5个线程就卡爆了。
返回顶部
顶部