WebMagic 0.7.1 版本发布,Java 爬虫框架

黄亿华
 黄亿华
发布于 2017年06月04日
收藏 45

此次更新包含几个比较大的Bugfix,以及一些遗留问题的改进。

  • 修复0.7.0引入的RedisScheduler无法使用的bug。#583

  • 注解模式的JsonPath默认会指定source为RawText,不再会出现自动为头尾加了<html>标签导致无法解析的情况。#589

  • RegexSelector之前版本默认匹配group1,并通过对无捕获组的正则头尾加括号的形式来统一抽取内容。在0.7.1版本改为不再改变正则,而是通过匹配group0还是group1来实现匹配,见#559。新做法可以减少一些特殊用法的出错几率,例如零宽断言(#556)。

  • 重构了ObjectFormatter部分,修复了ObjectFormatter无法初始化参数的bug。 #570

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:WebMagic 0.7.1 版本发布,Java 爬虫框架
加载中

最新评论(2

舒克呼叫贝塔
舒克呼叫贝塔
前排
sssssssssssssss
sssssssssssssss
mark
返回顶部
顶部