两千万链接地址的数据抓取

fir01 发布于 2016/12/27 10:01
阅读 4
收藏 0

公司需要用到一个网站的数据,就抓了下来,但是那个网站限制了3秒内同一Ip只能访问一次,共有大概1000w链接,需要有ip的公司来专业处理。每个地址打开后有个头部内容,然后下面有几个页签,页签的内容是ajax取的。抓完后要有结构化,保留外键关系插入到mysql数据库,然后导出给我们。表结构我们可以导出来给你们,也可以自己建一下,表结构我们也设计好了。如果您是java,那个解析网页的demo的代码也可以发给你参考。(详细请查看附件)

加载中
返回顶部
顶部