Python抓取腾讯漫画,WebUI版

t莫名 发布于 2014/07/09 00:32
阅读 1K+
收藏 4
看到 @Feng_Yu 同学的代码 http://www.oschina.net/code/snippet_1395553_36856
随手写了个一个网页版的UI,待改进的地方很多
https://bitbucket.org/xluer/getcomic
加载中
0
Feng_Yu
Feng_Yu

ac.qq.com的页面的漫画是flash,取了个巧,当时用ipad看的时候发现是可以看的(iOS可没有flash)。于是curl -vH "User-Agent: $ipadUA"请求ac.qq.com的时候,发现有302跳转,指向m.ac.qq.com,再用浏览器访问,发现跳转到了移动端的页面,这个页面没有flash,于是也有了后来提交的代码,修改ipad的UA,直接对ac.qq.com/xxxxx这样的地址进行请求,会跳转为m.ac.qq.com/xxx/xxx/id这样的地址,然后就可以用id参数解析了。不过对ac.qq.com/cf这个地址却无法跳转,只能加判断了,将跳转后的URL用正则判断一下。

于是果断开搞,利用移动端的地址下载漫画,发现页面上漫画是用js生成的,对比了一下URL规则与firebug抓到的页面请求到的json,发现这个js虽然是生成的,但是规则其实很好搞,并没有太复杂的加密过程。于是就看到代码中那段奇怪的j,k,m,那就是js的函数重写为python版,连变量名都没换。

顺便吐槽下腾讯,vip收费漫画居然只在前端页面有个验证,但是后端请求的JSON API和图片URL居然统统没有验证,可以直接下载VIP收费漫画。

命令行版的那个完成差不多了,加入了下载指定章节的功能,这周争取写个简单的GUI出来。

0
a
asdasdads
这个我确实试了下,但有个接口以及失效了,又去百度了下,发现这篇文章确实能抓取到腾讯漫画,这个应该是最新的http://www.zengzhenyy.com/data/topic161204.html
返回顶部
顶部