首页
开源软件
问答
博客
翻译
资讯
Gitee
众包
活动
专区
源创会
高手问答
开源访谈
周刊
公司开源导航页
登录
注册
首页
资讯
动弹
专区
问答
GOTC2023
活动
开源活动
开源创新大赛
软件库
Tool
博客
Gitee
首页
资讯
动弹
专区
问答
GOTC2023
活动
开源活动
开源创新大赛
软件库
Tool
博客
Gitee
OSCHINA 小程序 ——
关注技术领域的头条文章
聚合全网技术文章,根据你的阅读喜好进行个性推荐
登录
注册
Python爬虫—破解JS加密的Cookie
前言 在GitHub上维护了一个代理池的项目,代理来源是抓取一些免费的代理发布网站。上午有个小哥告诉我说有个代理抓取接口不能用了,返回状态521。抱着帮人解决问题的心态去跑了一遍代码。发现果真是这样。 通过Fiddler抓包比较,基本可以确定是JavaScript生成加密Cookie导致原来的请求返回521。 发现问题 打...
作者:
j_hao104
Python爬虫—破解JS加密的Cookie
分享
复制链接
README badge(
)
社交分享
微信
QQ
微博
j_hao104
2017/03/30 21:14
引用来自“Henson”的评论
其实呢,前端页面无论加密如何复杂,最终都要还原成浏览器可以解析的html代码,而documentElement.outerHTML正是最终的结果,所以用V8引擎简单跑下javascript:s=document.documentElement.outerHTML;document.write('<body></body>');document.body.innerText=s; 页面源码就出来了,供参考。
引用来自“j_hao104”的评论
加密内容是可以这样。但是打乱JS代码而且还是document.cookie,这是是拿不到cookie的。要修改JS才行😄
引用来自“Henson”的评论
爬http://www.kuaidaili.com/proxylist/*其实是不需要带cookie的😄
引用来自“j_hao104”的评论
你确定?前两天开始就有用Cookie验证了 word哥
引用来自“Henson”的评论
我用Go写的,python其实也一样,当然你已经写了,我没必要再去写一个,对吧。文末有鸣谢哦😄
厉害,这么快就实现了。虽然没用过Go。。。。。还是要给你点赞😄
回复
举报
Henson
2017/03/30 20:04
引用来自“Henson”的评论
其实呢,前端页面无论加密如何复杂,最终都要还原成浏览器可以解析的html代码,而documentElement.outerHTML正是最终的结果,所以用V8引擎简单跑下javascript:s=document.documentElement.outerHTML;document.write('<body></body>');document.body.innerText=s; 页面源码就出来了,供参考。
引用来自“j_hao104”的评论
加密内容是可以这样。但是打乱JS代码而且还是document.cookie,这是是拿不到cookie的。要修改JS才行😄
引用来自“Henson”的评论
爬http://www.kuaidaili.com/proxylist/*其实是不需要带cookie的😄
引用来自“j_hao104”的评论
你确定?前两天开始就有用Cookie验证了 word哥
我用Go写的,python其实也一样,当然你已经写了,我没必要再去写一个,对吧。文末有鸣谢哦😄
回复
举报
Henson
2017/03/30 19:57
引用来自“Henson”的评论
其实呢,前端页面无论加密如何复杂,最终都要还原成浏览器可以解析的html代码,而documentElement.outerHTML正是最终的结果,所以用V8引擎简单跑下javascript:s=document.documentElement.outerHTML;document.write('<body></body>');document.body.innerText=s; 页面源码就出来了,供参考。
引用来自“j_hao104”的评论
加密内容是可以这样。但是打乱JS代码而且还是document.cookie,这是是拿不到cookie的。要修改JS才行😄
引用来自“Henson”的评论
爬http://www.kuaidaili.com/proxylist/*其实是不需要带cookie的😄
引用来自“j_hao104”的评论
你确定?前两天开始就有用Cookie验证了 word哥
呵呵,根据你的思路刚写的,
https://git.oschina.net/henson/ProxyPool
,你可以去验证下,哈哈
回复
举报
j_hao104
2017/03/30 18:07
引用来自“Henson”的评论
其实呢,前端页面无论加密如何复杂,最终都要还原成浏览器可以解析的html代码,而documentElement.outerHTML正是最终的结果,所以用V8引擎简单跑下javascript:s=document.documentElement.outerHTML;document.write('<body></body>');document.body.innerText=s; 页面源码就出来了,供参考。
引用来自“j_hao104”的评论
加密内容是可以这样。但是打乱JS代码而且还是document.cookie,这是是拿不到cookie的。要修改JS才行😄
引用来自“Henson”的评论
爬http://www.kuaidaili.com/proxylist/*其实是不需要带cookie的😄
你确定?前两天开始就有用Cookie验证了 word哥
回复
举报
Henson
2017/03/30 15:55
引用来自“Henson”的评论
其实呢,前端页面无论加密如何复杂,最终都要还原成浏览器可以解析的html代码,而documentElement.outerHTML正是最终的结果,所以用V8引擎简单跑下javascript:s=document.documentElement.outerHTML;document.write('<body></body>');document.body.innerText=s; 页面源码就出来了,供参考。
引用来自“j_hao104”的评论
加密内容是可以这样。但是打乱JS代码而且还是document.cookie,这是是拿不到cookie的。要修改JS才行😄
爬http://www.kuaidaili.com/proxylist/*其实是不需要带cookie的😄
回复
举报
j_hao104
2017/03/30 15:21
引用来自“Henson”的评论
其实呢,前端页面无论加密如何复杂,最终都要还原成浏览器可以解析的html代码,而documentElement.outerHTML正是最终的结果,所以用V8引擎简单跑下javascript:s=document.documentElement.outerHTML;document.write('<body></body>');document.body.innerText=s; 页面源码就出来了,供参考。
加密内容是可以这样。但是打乱JS代码而且还是document.cookie,这是是拿不到cookie的。要修改JS才行😄
回复
举报
s045pd
2017/03/29 22:33
v8一句话啊。
回复
举报
Henson
2017/03/29 21:47
其实呢,前端页面无论加密如何复杂,最终都要还原成浏览器可以解析的html代码,而documentElement.outerHTML正是最终的结果,所以用V8引擎简单跑下javascript:s=document.documentElement.outerHTML;document.write('<body></body>');document.body.innerText=s; 页面源码就出来了,供参考。
回复
举报
robortly
2017/03/27 17:41
C#+Fiddler+V8引擎 应该很好就能解决了。
回复
举报
j_hao104
2017/03/24 18:24
引用来自“wei2011”的评论
selenium+phantomjs也可以
你的考虑性能,在高并发的情况下 能不能用浏览器就尽量不用
回复
举报
wei2011
2017/03/24 17:26
selenium+phantomjs也可以
回复
举报
j_hao104
2017/03/24 15:37
引用来自“不日小鸡”的评论
大家都去抓免费代理,都成万人骑了
哈哈 爬虫入门之抓取免费代理😁
回复
举报
三
三岁就很帅T
2017/03/24 14:08
大家都去抓免费代理,都成万人骑了
回复
举报
回复 @
{{ emoji.type }}
{{emojiItem.symbol}}
评论用户
三
推荐博客
靠近用户侧和数据,算网融合实现极致协同
阿里云视频云
·
今天 17:28
0 评论
虚拟云网络系列 | Antrea 应用于 VMware 方案功能简介(四)
VMware中国研发中心
·
今天 13:37
0 评论
字节跳动 Flink 大规模云原生化实践
字节跳动云原生计算
·
今天 13:01
0 评论
以前端视角,漫谈「云端」
京东云开发者
·
今天 09:48
0 评论
利用Jackson序列化实现数据脱敏
京东云开发者
·
今天 09:39
3 评论
电商通用型商品中心设计
京东云开发者
·
今天 09:26
1 评论
利用自动化平台可以做的那亿点事 |得物技术
得物技术
·
昨天 20:45
0 评论
常见的项目管理问题如何应对?| 得物技术
得物技术
·
昨天 20:23
0 评论
为什么要参与到开源社区里面来
罗广明
·
昨天 19:20
0 评论
历史性的时刻!OpenTiny 跨端、跨框架组件库正式升级 TypeScript,10万行代码重获新生!
Kagol
·
昨天 16:19
0 评论
删除一条评论
评论删除后,数据将无法恢复
取消
确定
©OSCHINA(OSChina.NET)
工信部
开源软件推进联盟
指定官方社区
社区规范
深圳市奥思网络科技有限公司版权所有
粤ICP备12009483号
顶部
引用来自“Henson”的评论
其实呢,前端页面无论加密如何复杂,最终都要还原成浏览器可以解析的html代码,而documentElement.outerHTML正是最终的结果,所以用V8引擎简单跑下javascript:s=document.documentElement.outerHTML;document.write('<body></body>');document.body.innerText=s; 页面源码就出来了,供参考。引用来自“j_hao104”的评论
加密内容是可以这样。但是打乱JS代码而且还是document.cookie,这是是拿不到cookie的。要修改JS才行😄引用来自“Henson”的评论
爬http://www.kuaidaili.com/proxylist/*其实是不需要带cookie的😄引用来自“j_hao104”的评论
你确定?前两天开始就有用Cookie验证了 word哥引用来自“Henson”的评论
我用Go写的,python其实也一样,当然你已经写了,我没必要再去写一个,对吧。文末有鸣谢哦😄引用来自“Henson”的评论
其实呢,前端页面无论加密如何复杂,最终都要还原成浏览器可以解析的html代码,而documentElement.outerHTML正是最终的结果,所以用V8引擎简单跑下javascript:s=document.documentElement.outerHTML;document.write('<body></body>');document.body.innerText=s; 页面源码就出来了,供参考。引用来自“j_hao104”的评论
加密内容是可以这样。但是打乱JS代码而且还是document.cookie,这是是拿不到cookie的。要修改JS才行😄引用来自“Henson”的评论
爬http://www.kuaidaili.com/proxylist/*其实是不需要带cookie的😄引用来自“j_hao104”的评论
你确定?前两天开始就有用Cookie验证了 word哥引用来自“Henson”的评论
其实呢,前端页面无论加密如何复杂,最终都要还原成浏览器可以解析的html代码,而documentElement.outerHTML正是最终的结果,所以用V8引擎简单跑下javascript:s=document.documentElement.outerHTML;document.write('<body></body>');document.body.innerText=s; 页面源码就出来了,供参考。引用来自“j_hao104”的评论
加密内容是可以这样。但是打乱JS代码而且还是document.cookie,这是是拿不到cookie的。要修改JS才行😄引用来自“Henson”的评论
爬http://www.kuaidaili.com/proxylist/*其实是不需要带cookie的😄引用来自“j_hao104”的评论
你确定?前两天开始就有用Cookie验证了 word哥引用来自“Henson”的评论
其实呢,前端页面无论加密如何复杂,最终都要还原成浏览器可以解析的html代码,而documentElement.outerHTML正是最终的结果,所以用V8引擎简单跑下javascript:s=document.documentElement.outerHTML;document.write('<body></body>');document.body.innerText=s; 页面源码就出来了,供参考。引用来自“j_hao104”的评论
加密内容是可以这样。但是打乱JS代码而且还是document.cookie,这是是拿不到cookie的。要修改JS才行😄引用来自“Henson”的评论
爬http://www.kuaidaili.com/proxylist/*其实是不需要带cookie的😄引用来自“Henson”的评论
其实呢,前端页面无论加密如何复杂,最终都要还原成浏览器可以解析的html代码,而documentElement.outerHTML正是最终的结果,所以用V8引擎简单跑下javascript:s=document.documentElement.outerHTML;document.write('<body></body>');document.body.innerText=s; 页面源码就出来了,供参考。引用来自“j_hao104”的评论
加密内容是可以这样。但是打乱JS代码而且还是document.cookie,这是是拿不到cookie的。要修改JS才行😄引用来自“Henson”的评论
其实呢,前端页面无论加密如何复杂,最终都要还原成浏览器可以解析的html代码,而documentElement.outerHTML正是最终的结果,所以用V8引擎简单跑下javascript:s=document.documentElement.outerHTML;document.write('<body></body>');document.body.innerText=s; 页面源码就出来了,供参考。引用来自“wei2011”的评论
selenium+phantomjs也可以引用来自“不日小鸡”的评论
大家都去抓免费代理,都成万人骑了