如何抓取有js控制生成的html标签页

znetor 发布于 2010/12/27 20:49
阅读 2K+
收藏 1

<h2 id="categoryh_1" onmouseover="amouseOver(1,1,event,this,126,'book'); " onmouseout="amouseOut(1,1,event,this);"><a href="http://book.dangdang.com/" class="label"><span class="icon_book">图书音像</span></a></h2>

 

今天尝试抓取 当当分类

可是始终抓不到图书下面的标签  一看源代码 我去... js动态生成 ...

 

不知道大家有什么好的想法? Selenium RC ???  更多?

加载中
0
wediolee
wediolee

或者使用webbrowser之类的控件等待页面解析完毕应该也可以获得隐藏的分类

0
crifan
crifan

1.如果不了解网页抓取的逻辑,则可参考:

【整理】关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项

2. 已经了解了的,去使用相关的工具:

【总结】浏览器中的开发人员工具(IE9的F12和Chrome的Ctrl+Shift+I)-网页分析的利器

分析网页执行的过程。即当你用鼠标移动上去后,执行了哪些js,如何执行的。

都搞懂后。

然后就可以用python代码模拟整个过程,就可以获得你需要的结果了。

 

 

crifan
crifan
回复 @znetor : 中国人搞技术的很多,但是认真的不多。我努力做到这点。
znetor
znetor
我擦 一年前的帖子你都回了 中国人人民有希望了 谢谢
0
孙嘉男
这..  认真看一看
返回顶部
顶部