千万链接地址的数据抓取

fir01 发布于 2016/12/19 11:05
阅读 3
收藏 0

公司需要用到一个网站的数据,就抓了下来,但是那个网站限制了3秒内同一Ip只能访问一次,共有大概1000w链接,需要有ip的公司来专业处理。每个地址打开后有个头部内容,然后下面有几个页签,页签的内容是ajax取的。抓完后要有结构化,保留外键关系插入到mysql数据库,然后导出给我们。表结构我们可以导出来给你们,也可以自己建一下,表结构我们也设计好了。如果您是java,那个解析网页的demo的代码也可以发给你参考。(详细请查看附件)

加载中
0
fir01
fir01
都审核,第一次发包。请大家看下附件word文档,看下能不能解决我目前遇到的难点。
0
那位先生_
那位先生_
只要数据?
0
不吃肉夹馍
不吃肉夹馍
1000w这种抓法要多长时间
0
八风不动
八风不动
没看到附件啊。
0
fir01
fir01
审核后有个word,有个难题,如果能解决,有自己的ip池就能抓。企业数据和项目数据这个难题我这边能解决,但是人员我这边也没解决,因为人员他们搜索引擎的索引没做好,很慢,我自己找到的解决办法会访问超时返回504,能解决请给我留言就可以确认了
0
fir01
fir01
osc的客服已经把附件补上去了,非常感谢
0
林伟琨
林伟琨
具体什么问题呢? 因为人员他们搜索引擎的索引没做好,很慢,我自己找到的解决办法会访问超时返回504
0
fir01
fir01
因为文档中的难题接包方没解决,重新打开了报名,因为耽误了几天,现在要求新接包方有足够的ip资源能在3天内抓完。要求是按我们指定的方式抓取,虽然会缺一些数据,但是在可接受范围内。我们会提供连接的获取方式,接包方给方案后请留电话,我方电话说明怎么突破
0
n
niad
通过以下我吧 我来弄
0
n
niad

引用来自“fir01”的评论

都审核,第一次发包。请大家看下附件word文档,看下能不能解决我目前遇到的难点。
再审核一次可否
返回顶部
顶部