如何使用英特尔®oneAPI工具实现PyTorch 优化,直播火热报名中>>>
爬虫爬取新浪财经(http://finance.sina.com.cn/stock/usstock/sector.shtml)上的美股数据,网页中包含了javascript,我用selenium 抓取时只能抓到第一页表格,我gaizenm from selenium import selenium from selenium import webdriver browser=webdriver.PhantomJS(executable_path=r'D:\phantomjs-2.1.1-windows\bin\phantomjs.exe') url=r'http://finance.sina.com.cn/stock/usstock/sector.shtml' browser.get(url) html = browser.execute_script("return document.documentElement.outerHTML") 这样得到的html只有第一页,请问怎么才能拿齐全部数据呢
用browser获取到翻页标签的对象,调用click方法,再延时若干秒,就可以翻页了。
还可以试着去抓包,比用selenium模拟访问要效率很多。
循环获取数据,如果是JavaScript就用ajax 获取。AJAX通过抓包提取