htmlunit不能很好的解析ajax动态生成的内容

一路畅通 发布于 2013/08/30 09:45
阅读 3K+
收藏 1

MySQL连接为什么挂死了?别踩坑!>>>

@黄亿华 你好,想跟你请教个问题:最近一直在研究怎么抓取南航指定页面的问题,用htmlunit可以模拟浏览器搜索,但搜索后的页面,其他内容都有,但就是ajax动态生成的信息无法显示,希望你能指点一下或者给个思路都行,谢谢

加载中
0
星爷
星爷
有些时候不必吊死在一棵树上,你使用firefox的firebug查看ajax加载,其实很多都是有规律的,也就是带带cookie和几个固定参数而已。
一路畅通
一路畅通
谢谢你,我最后用httpanalyzer慢慢分析,最后能得到相应后的链接,直接把那个链接的内容拿出来就可以了,不过那种方法只能一个一个的去分析网站,太累了,目前在研究rhino怎么解析js脚本的,表示没有思路
0
黄亿华
黄亿华

没用过HtmlUnit,不过在使用Selenium我倒也遇到这个问题,ajax的返回可能比较慢,获取内容的时候还未渲染完毕,所以这时候获取没有结果,sleep一段时间就好了。

当然 @huaye2007 的方法也很好,抓取的效率更高。

Neoman
Neoman
Seleniuml似乎也是基于htmlunit的?我看到他依赖htmlunit,但没去用过
一路畅通
一路畅通
我让他spleep一段时间后,只能得到简单的响应内容,复杂的还是不行
0
java10001
java10001
htmlunit2.13效果好很多,但是偶尔出现cpu 100% 的情况,初步估计可能js之行陷入了死循环
返回顶部
顶部