使用selenium动态网页的抓取问题?

applejj 发布于 2015/09/14 10:48
阅读 1K+
收藏 0

最近爬虫由静态网页转变成动太网页爬虫,在源码问题上有些不明白的地方,还请多多指教:

1.看文章说,如果是动态网页的时候,源码和审查元素的内容是不同的,需要使用类似于selenium这样的工具,我对于使用这个工具来爬虫的原理是这么理解的:使用selenium打开浏览器,加载js后,可根据源码来解析如你想要的东西,例如商品名字,价格?是这样吗?但是我在看源码的时候找不到商品信息,但是通过审查元素,可以找到商品信息?

2.能给点建议去了解什么方面的知识吗?我觉得我应该是网页结构没有基础的原因。

Thanks so much!

加载中
0
moyiguke
moyiguke

Ajax的网页,用你网页上看到的url请求过去是没有数据的,F12打开network可以 看到真实请求的url。找到这个url,请求过去,数据就有了,一般都是返回json。

用Selenium,相当于用python控制浏览器,浏览器会自动执行页面js,所以可以看到ajax的内容。

0
yongzhong
yongzhong

selenium其实不止用在Python,java也有的.通过代码调用浏览器,实现自动化测试/爬虫都是可以的

另外,源码!=页面元素.页面元素是已经渲染,处理好了的(后端和前端),源码只是后端渲染完成的,前端的处理是没有的

返回顶部
顶部