少帮主 你好,想跟你请教个问题

开源中国首席煤工 发布于 2012/07/17 09:59
阅读 351
收藏 0

@少帮主 你好,想跟你请教个问题:

为何用python抓取谷歌看不到真实html

还是这个问题,请问有什么好的办法可以解决这个问题吗?

加载中
0
少帮主
少帮主

Google的web数据返回采用的是json数据格式,js触发json数据调用,你需要在python中继续获取这个json调用的url

比如

https://www.google.com/search?hl=en&newwindow=1&safe=strict&output=search&sclient=psy-ab&q=google&oq=google&gs_l=hp.3..0l4.1716.2340.0.2498.6.4.0.2.2.2.316.1215.2-1j3.4.0...0.0...1c.VJDMXpfWULs&pbx=1&bav=on.2,or.r_gc.r_pw.r_cp.r_qf.,cf.osb&fp=f2ee13396f1a1cad&biw=1163&bih=625&tch=1&ech=1&psi=bMwEUKCoKISziQK0kJ21CA.1342491757333.3

这个是我搜索关键词google的返回真实数据的json(其中多少条数据就是在json中)

google https加密处理了,不是那么好处里的,但是原理是通的,建议你用chrome跟踪下请求时间线,很简单的

 

 

 

0
开源中国首席煤工
开源中国首席煤工
谢谢,第一次用chrome的时间线,非常好的工具,数据已找到。我是python新手,以后多指教,你就是大神。
返回顶部
顶部