爬虫代理 IP 池 ProxyIpPool

Apache
Java
跨平台
2018-05-21
蛐蛐未加V

ProxyIpPool 是一个爬虫代理 ip 池,主要用途爬取代理 ip ,然后将这些代理 ip 放入池子里(池子是某个数据结构的概念,比如我用的是队列)进行维护。

为什么需要维护呢?因为大多数代理 ip 都不太问题稳定,需要我们用程序自行去评测它的一个稳定性和可靠性,从而筛选出可用的代理 ip 持久化到我们的磁盘里。

系统原理图:


加载中

评论(1)

M
Mrou
加油
蛐蛐未加V
蛐蛐未加V 软件作者
#ProxyIpPool#,后期练手准备全改为异步操作

暂无资讯

暂无问答

GuozhongCrawler系列教程 (2) CrawTaskBuilder详解

GuozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全面向业务提供接口,功能覆盖整个爬虫的生命周期(链接提...

2015/06/08 17:35
51
0
GuozhongCrawler看准网爬虫动态切换IP漫爬虫

为了证明GuozhongCrawler最接地气最实用的功能“代理IP切换”的强大特性。我特意做了一个看准网爬虫。看准网同一个IP每请求50次就需要输入验证码,请求100次就封IP。

2015/07/02 12:22
161
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部