python 爬虫 针对javascript ,ajax

众星烁 发布于 2015/05/09 21:08
阅读 1K+
收藏 2

各位大侠,

   我遇到python 爬虫 针对javascript ,ajax 的问题 

在我爬网页中遇到下面这个js

http://ccss.www.com/statics/pages/okkkw/d3/sesd/tablelist.js?_dc=20150321


里面这个被嵌入到页面中的js的返回值列表就是想取得的值,

可是我改用什么样的方法来获取到其中的值呢?

请各位大侠指点迷津。 

ps:上一个模拟登陆的问题已经解决,多谢各位帮忙

加载中
1
Feng_Yu
Feng_Yu

一种偷懒的方式是调用浏览器访问页面,利用浏览器解析页面js拿到返回结果。

另一种方案比较麻烦,但是更具有通用性和针对性。就是自己读js代码,使用python实现你需要的js逻辑。比如我以前写的python下载腾讯漫画的脚本就是这种方案实现的。

如果遇到unlify处理过的js,读取困难,可以用firebug或者osc的在线工具格式化代码之后再读逻辑

Feng_Yu
Feng_Yu
回复 @guxingshuo : https://pypi.python.org/pypi/selenium 用selenium这个库。这个库经常可以用来做页面自动化测试
众星烁
众星烁
十分感谢,请问第一种你是咋弄的?有代码可以分享吗?再次感谢。
0
明天以后
明天以后
selenium + phantomJS
众星烁
众星烁
十分感谢~
0
chenghao
chenghao
selenium 或 ghost.py都可以
众星烁
众星烁
十分感谢
0
s
sosozzzx

需要写爬虫的开发者可以关注一下神箭手,这是一个云爬虫开发平台,只需要简单几行js代码就可以写出爬虫,并且是直接运行在云服务器上的。官方提供了大量的功能函数,同时还支持所有的js自带函数。一切操作都在云上进行,不需要任何线下开发环境。

demo源码地址:

http://git.oschina.net/sjsdata/crawler_samples

返回顶部
顶部