WebMagic 0.6.1 版本发布,Java 爬虫框架

黄亿华
 黄亿华
发布于 2017年01月21日
收藏 33

WebMagic 0.6.1 版本发布了。本次更新修复了一些 0.6.0 的问题和一些小优化。

  • 修改默认策略为信任所有 https 证书 #444 @ckex

  • 修复使用 startUrls 添加 url 时,如果使用了 cookie 会出现空指针的问题 #438

  • PhantomJSDownloader 支持 crawl.js 路径自定义 #414 @jsbd

  • POST 请求支持 302 跳转 #443 @xbynet

注:默认信任所有证书会有内容伪造的风险,但是考虑到爬虫的便利性还是加上了,使用者需要自己判断内容安全性。

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:WebMagic 0.6.1 版本发布,Java 爬虫框架
加载中

精彩评论

x
xiaobaicai121
最近发现webmagic爬取网站的时候老是报connect reset的错误,后面发现是目标站只支持TLS1.2和1.1,不支持TLS1.0,而JDK7默认支持TLS1.0,要解决这个问题只能升级JDK8或者加入第三方库bouncycastle修改源码来解决,请问黄大大在下一版本会不会完善这方面的问题。

最新评论(7

大漠真人
大漠真人
在Windows上使用PhantomJSDownloader抓网页,我已经把phantomjs添加到环境变量了,在命令行执行也可以的,但是在idea中运行就报了下面的错,求指点:
java.io.IOException: Cannot run program "phantomjs": CreateProcess error=2, 系统找不到指定的文件
B
B优G
xpath无法正确定位。String aa = page.getHtml().xpath("//*[@id='j-catalogWrap']//*[@class='volume-wrap']1").toString(); 返回null,而xpath checker 正确定位,求前辈的指点一下
x
xiaobaicai121
最近发现webmagic爬取网站的时候老是报connect reset的错误,后面发现是目标站只支持TLS1.2和1.1,不支持TLS1.0,而JDK7默认支持TLS1.0,要解决这个问题只能升级JDK8或者加入第三方库bouncycastle修改源码来解决,请问黄大大在下一版本会不会完善这方面的问题。
开源中国社区酱油哥
开源中国社区酱油哥
我用以前的老版本就出现了采集https问题的情况,问题没找到具体思路. OSC上有发求助帖.

修改了代码,让他直接信任https.看来新版本可以直接用了.
勇敢前行
终于更新了。。。一如既往的支持下黄大大!
黄亿华
黄亿华

引用来自“乌龟壳”的评论

为啥要默认,给个开关不也可以吗
主要我是觉得爬虫全部信任也没什么问题,毕竟http也用了那么久了,先开着看用户反馈,毕竟抓一些神奇网站的哥们更多一些。
乌龟壳
乌龟壳
为啥要默认,给个开关不也可以吗
返回顶部
顶部