爬虫分布式的问题,求大神给解决方案。

伟仔12541 发布于 2018/03/20 13:56
阅读 301
收藏 0

我们做了个模拟运营商登录获取详单的一个爬虫程序,网站有限制,客户端每次只能有一个用户操作,基于这个限制我们准备做分布式,也就是利用多个虚拟机,生成多个项目。

每个用户进来分配不同的项目接口

但是有个问题, 我们一个接口分两步:

                                                   1。获取验证码

                                                    2 查询详单

举例说明 一共有10个项目端口   A客户进来 我们给A分配一个 还剩下九个,那么如果A用户只访问了第一个接口,没有访问第二个接口的时候,就一直占用这个端口,因为我们判断的是,查询完详单之后释放这个端口,让别的用户也可以访问这个接口。就是解决不了这个占用问题,那么如果是写个定时任务的话也没有思路,所以大牛们有没有好的思路,或者说给个定时任务的思路。

 

加载中
0
MatchL
MatchL

维护一个可用的代理ip池,每次请求轮询可用代理ip做http请求。

0
zhaohengchao
zhaohengchao

异常处理,如果没有走完第一步就异常了就把接口释放,或者给个时间限制

返回顶部
顶部