如何用python解析网页并获得网页真实的源码?如何调用浏览器引擎实现?

sunny999 发布于 2013/10/29 10:17
阅读 2K+
收藏 0

     最近刚接触python,想用python对网页进行解析。用urllib库可以得到网页源代码。最近正在解析某些钓鱼网站,可是网站的源码都被钓鱼者用js加密或者隐藏了,无法得到。用firefox或者google浏览器的"审查元素"功能就可以得到网站的真实的源码。想问有没有办法可以用python实现浏览器的"审查元素"功能?如果要调用浏览器引擎,怎么调用?(ps.小女刚学习python,很多都不是很懂,望大家见谅~)如果能给出实现的源代码最好不过了~

加载中
0
hlevel
hlevel
python 应该有执行js 功能模块吧。 这样就完全模拟浏览器了,还有你可以观察一下 网络在页面是不是又发了ajax 请求。
sunny999
sunny999
感觉好麻烦的样子~~
0
zzy_zzy
zzy_zzy
之前听某大牛说过“web前端没有任何安全”,具体操作就不知道了
0
呼啦_小呆
呼啦_小呆
看见小女两字,我就忍不住回复一下~~
sunny999
sunny999
回复 @呼啦_小呆 : 我也不想这样啊~~太费脑子了--!
呼啦_小呆
呼啦_小呆
回复 @sunny999 : 小姑娘没事抓什么动态网页,看看这个吧 http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_login.html
sunny999
sunny999
给定技术性的支持呗- -!
0
宁宁123韩
宁宁123韩
python + selenium 源码的木有    ~~~
宁宁123韩
宁宁123韩
回复 @sunny999 : 不是要调用浏览器么,这个很简单啊~~
sunny999
sunny999
不知道selenium怎么用~简单搜了一下,不是测试用的么?
0
Dr.Who
Dr.Who
spidermonkey
sunny999
sunny999
好苦难啊~~从来没有接触过这东西,执行js模块之后不知道能不能行得通~
0
唯一only
唯一only
可以去了解下python如何调用webkit的引擎,你说的那种不是用js加密,只是用js动态加载页面内容。必须用webkit之类的浏览器引擎去渲染。
sunny999
sunny999
回复 @宁宁123韩 : 非常感谢,大概看了一下,貌似有些作用~~我试试吧
宁宁123韩
宁宁123韩
回复 @sunny999 : http://www.cnblogs.com/asmblog/archive/2013/05/07/3063809.html 给你找了篇文章我看了一下,应该是你想要的把~
sunny999
sunny999
我查看源码的时候,获得的是一些乱码~有的页面还采用了框架。网上有人说不可能获得真实的源码,是这个样子吗?
返回顶部
顶部