jsoup 1.11.3 发布,Java 的 HTML 解析器

周其
 周其
发布于 2018年04月16日
收藏 30

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。

jsoup的主要功能如下:

  1. 从一个URL,文件或字符串中解析HTML;

  2. 使用DOM或CSS选择器来查找、取出数据;

  3. 可操作HTML元素、属性、文本;

jsoup是基于MIT协议发布的,可放心使用于商业项目。

此次更新内容:

改进

  • CDATA sections are now treated as whitespace preserving (regardless of the containing element), and are round-tripped into output HTML.

  • Added support for Deflate encoding.

  • When parsing <pre> tags, skip the first newline if present.

  • Support nested quotes for attribute selection queries.

  • Character references from Windows-1252 that are not valid Unicode are mapped to the appropriate Unicode replacement.

  • Accept a custom SSL socket factory in Jsoup.ConnectionNote that Connection.validateTLSCertificates() will be removed in the next release; Connection.sslSocketFactory(SSLSocketFactory sslSocketFactory)provides a path to implement a workaround if you need to keep using a similar approach.

Bug 修复

  • Bugfix: A Mark has been invalidated exception was thrown when parsing some URLs on Android <= 6.

  • Bugfix: The Element.text() for <div>One</div>Two was OneTwo, not One Two.

  • Bugfix: boolean attributes with empty string values were not collapsing in HTML output.

  • Bugfix: when using the XML Parser set to lowercase normalize tags, uppercase closing tags were not correctly handled.

  • Bugfix: when parsing from a URL, an end tag could be read incorrectly if it started on a buffer boundary.

完整内容请查看发布主页下载地址

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:jsoup 1.11.3 发布,Java 的 HTML 解析器
加载中

精彩评论

i胡志强
i胡志强
非常非常灵活的工具包,可是也有不足之处,1 加载整个dom耗时较长,2 有些网站进入首页会使用js脚本异步请求获取数据、这时候jsoup不支持。
开源中国首席一失足成千古风流人物以稀为贵
开源中国首席一失足成千古风流人物以稀为贵

引用来自“i胡志强”的评论

非常非常灵活的工具包,可是也有不足之处,1 加载整个dom耗时较长,2 有些网站进入首页会使用js脚本异步请求获取数据、这时候jsoup不支持。
他只是一个静态的工具包, 不具备脚本执行能力..
红薯
红薯
更新不少内容哦

最新评论(13

因为帅所以自卑
因为帅所以自卑
抓取一些常规的网站还是挺好用的,就是如果对方网站是异步加载的,就不行了;离Python的爬虫还是有一段距离;
走位风骚闪着腰
走位风骚闪着腰
解析html没啥用问题 用它来修改html问题不少……
开源中国首席罗纳尔多
开源中国首席罗纳尔多
异步ajax数据能获取?
开源中国首席一失足成千古风流人物以稀为贵
开源中国首席一失足成千古风流人物以稀为贵

引用来自“i胡志强”的评论

非常非常灵活的工具包,可是也有不足之处,1 加载整个dom耗时较长,2 有些网站进入首页会使用js脚本异步请求获取数据、这时候jsoup不支持。
他只是一个静态的工具包, 不具备脚本执行能力..
i胡志强
i胡志强
非常非常灵活的工具包,可是也有不足之处,1 加载整个dom耗时较长,2 有些网站进入首页会使用js脚本异步请求获取数据、这时候jsoup不支持。
满口蛀牙_007
满口蛀牙_007
抓运营商数据时用过~
天上星星
跟火车头抓取器说拜拜:laughing:
二的基本算合格
二的基本算合格
这个jsoup真的不错,非常好,推荐推荐~
momisabuilder
momisabuilder
call
返回顶部
顶部