python selenium 抓取含有 javascript网页表格如何翻页的问题

sailordump 发布于 2016/09/16 11:15
阅读 2K+
收藏 0
爬虫爬取新浪财经(http://finance.sina.com.cn/stock/usstock/sector.shtml)上的美股数据,网页中包含了javascript,我用selenium 抓取时只能抓到第一页表格,我gaizenm

from selenium import selenium

from selenium import webdriver
browser=webdriver.PhantomJS(executable_path=r'D:\phantomjs-2.1.1-windows\bin\phantomjs.exe')
url=r'http://finance.sina.com.cn/stock/usstock/sector.shtml'
browser.get(url)
html = browser.execute_script("return document.documentElement.outerHTML")

这样得到的html只有第一页,请问怎么才能拿齐全部数据呢
加载中
1
Ashkandi
Ashkandi

用browser获取到翻页标签的对象,调用click方法,再延时若干秒,就可以翻页了。

还可以试着去抓包,比用selenium模拟访问要效率很多。

0
s
sosozzzx
可以参考下这个文档哦~http://doc.shenjianshou.cn/renderJS.html
0
加州肥猫
加州肥猫

循环获取数据,如果是JavaScript就用ajax 获取。AJAX通过抓包提取


返回顶部
顶部