JSOUP爬取网页源码的问题!

恒温 发布于 2017/03/06 18:02
阅读 452
收藏 0

解析出来的页面和游览器直接访问的不是同一个页面,不是User-Agent的原因,如果被封IP应该怎么办?

加载中
0
Soutv
Soutv
部分网页爬取时会跳多级页面,用普通的方式无法解决,需要一层层解析或者用Pathom.js来帮你完成这一步。爬取时使用代理ip,ua常更换,速度放慢点可以有效防止被封。
0
蓝风970655147
蓝风970655147

没过校验, 或者有跳转, 楼上是phantomjs, 嘿嘿

0
c
chenSJ519

httpClient+Jsoup

返回顶部
顶部