http网页抓取的问题

zcy421593 发布于 2016/03/09 17:13
阅读 834
收藏 1
最近接了个网页爬虫的项目,现在遇到的问题是需要抓取的网页需要将进度栏下滑才能显示完整,之前有人指点用selenium,貌似selenium只提供了JAVA/PYTHON接口,而且需要浏览器驱动。请各位指点。
加载中
0
子匠
子匠
对于html网页抓取,在移动端和web端可使用htmlparser和jsoup。在node.js中,还可使用cheerio库。
0
x
xlmrmu
瀑布流,js动态加载的,要么放弃,要么加钱
0
双_双
双_双
人工分析js请求,找到接口后爬的即快又准
0
xtuhcy
xtuhcy
可以试试htmlunit,不需要驱动,但是对js兼容性没那么好。同时可以参考一下java爬虫框架gecco
返回顶部
顶部