jsoup 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
jsoup 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
jsoup 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 MIT
开发语言 Java 查看源码 »
操作系统 跨平台
软件类型 开源软件
所属分类 Web应用开发HTML解析器
开源组织
地区 不详
投 递 者 红薯
适用人群 未知
收录时间 2010-01-31

软件简介

jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM、CSS 以及类似于 JQuery 的操作方法来取出和操作数据。

本站使用 jsoup 来解析 HTML。

jsoup的主要功能如下:

  1. 从一个URL,文件或字符串中解析HTML;

  2. 使用DOM或CSS选择器来查找、取出数据;

  3. 可操作HTML元素、属性、文本;

jsoup是基于MIT协议发布的,可放心使用于商业项目。

示例代码:

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

在线Javadoc:http://tool.oschina.net/apidocs/apidoc?api=jsoup-1.6.3

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(31)
发表于大前端专区
2020/03/03 07:27

Java HTML 解析器 jsoup 发布 1.13.1,解析速度显著提升

jsoup 1.13.1 已发布,值得关注的改进包括:解析速度较 1.12.x 有了显著提升、选择器增加新特性、修复 Mark Invalid 出现异常的问题,以及许多其他的改进。 jsoup 是最好的 Java HTML 解析器(红薯认证),它使用最好的 HTML5 DOM 方法和 CSS 选择器,为提取和处理数据提供了非常方便的 API。感受一下代码: Document doc = Jsoup.connect("https://en.wikipedia.org/").get(); log(doc.title()); Elements newsHeadlines ...

10
28
发表于大前端专区
2019/05/13 10:40

jsoup 1.12.1 发布,最好的 Java HTML 解析器,没有之一

jsoup 1.12.1 发布了,该版本包含众多可用性的提升,提升了解析速度和内存效率,修复了不少 bug 。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 下载地址:Download 完整的改进记录如下: Changes Change: removed deprecated method to disable TLS cert checking in Connection.validateTLSCertificates...

13
56
发表于大前端专区
2018/04/16 07:50

jsoup 1.11.3 发布,Java 的 HTML 解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本; jsoup是基于MIT协议发布的,可放心使用于商业项目。 此次更新内容: 改进 CDATA sections are now treated as whitespace pre...

13
30
发表了资讯
2017/11/20 14:29

jsoup 1.11.2 发布,Java 的 HTML 解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本; jsoup是基于MIT协议发布的,可放心使用于商业项目。 此次更新内容: 改进 Added a new pseudo selector :matchText, which al...

5
41
发表了资讯
2017/11/06 09:17

jsoup 1.11.1 发布,最强的 Java HTML 解析器

jsoup 1.11.1 发布了,该版本降低了 30% 的 DOM 内存使用,增加了流式网络 HTML 解析,更快的 HTML 生成以及大量的改进和 bug 修复,下载地址:https://jsoup.org/download 改进 When loading content from a URL or a file, the content is now parsed as it streams in from the network or disk, rather than being fully buffered before parsing. This substantially reduces memory consumption & large garbage objects...

14
33
发表了资讯
2017/06/12 12:01

jsoup 1.10.3 发布,Java 的 HTML 解析器

jsoup 1.10.3 发布了,该版本带来了更好的 CSS 选择器性能,Jsoup.Connection 改进和其他 bug 修复。 详情包括: Improvements Added Elements.eachText() and Elements.eachAttr(), which return a list of an Element's text or attribute values, respectively. This makes it simpler to for example get a list of each URL on a page: List<String> urls = doc.select("a").eachAttr("abs:href""); Improved selector va...

11
26
发表了资讯
2017/01/05 09:46

jsoup 1.10.2 发布,Java 的 HTML 解析器

jsoup 1.10.2 发布了,该版本带来了更快的启动时间,扩展 DOM 树的遍历,提升了 HTTP 兼容性以及修复了一些 bug。 详情包括: Improvements Improved startup time, particularly on Android, by reducing garbage generation and CPU execution time when loading the HTML entity files. About 1.72x faster in this area. Added Element.is(query) to check if an element matches this CSS query. Added new methods to El...

18
27
发表了资讯
2016/10/24 00:00

Jsoup 1.10.1 发布,Java 的 HTML 解析器

Jsoup 1.10.1 发布了,Jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。更新内容如下: 改进 Improved support for extended HTML entities, including supplemental characters and multiple character references. Also reduced memory consumption of the entity tables. Added support for *|E wildcard n...

7
44
发表了资讯
2016/05/18 00:00

jsoup 1.9.2 发布,Java 的 HTML 解析器

jsoup 1.9.2 发布,改进内容包括: 改进: 1. In XML documents, detect the charset from the XML prolog -- <?xml encoding="UTF-8"?> Bug 修复 1. Fixed an issue where tag names that contained non-ascii characters but started with an ascii character would cause the parser to get stuck in an infinite loop. 2. Fixed an issue where API created XML documents would have an incorrect prolog. 3. Fixed an iss...

10
60
发表了资讯
2016/04/18 00:00

jsoup 1.9.1 发布,HTML 解析器

jsoup 1.9.1 发布。 更新日志: 改进: Added support for HTTP and SOCKS request proxies, specifiable per connection. See Connection.proxy(String, int). Added support for sending plain HTTP request bodies in POST and PUT requests, with Connection.requestBody(String). Added support in Jsoup.Connect() for HEAD, OPTIONS, and TRACE. Added support for HTTP 307 Temporary Redirect (replays posts, if appl...

9
45
发表了资讯
2015/08/03 00:00

jsoup 1.8.3 发布,HTML 解析器

jsoup 1.8.3 发布,此版本主要改进有:解析大型 HTML 文件的一些性能提升;抓取 XML 文档时,自动切换到 XML 解析器;重要 bug 修复。 更新内容: 改进 Performance improvement on parsing larger HTML pages. On Android KitKat, around 1.7x times faster. On Android Lollipop, ~ 1.3x faster. Improvements largely from re-ordering the HtmlTreeBuilder methods based on analysis of various websites; also from furt...

31
77
发表了资讯
2015/04/15 00:00

jsoup 1.8.2 发布,HTML 解析器

jsoup 1.8.2 发布,此版本提升了 Android,HTML 解析,HTML 生成,查询等方面的性能。同时添加了文件上传,W3C DOM 互操作等功能,还有其他的改进和 bug 修复。 更新内容 改进 提升 Android 解析 HTML 的性能 提升 Android HTML 序列化的性能 加快 Andorid 上字符集编码速度 提升 Andorid 上 selector 类的性能 支持文件上传 Add a meta-charset element to documents when setting the character set Added ability to disabl...

22
72
发表了资讯
2014/09/28 00:00

jsoup 1.8.1 发布,极大的性能提升!

jsoup 1.8.1 发布啦! jsoup 1.8.1 显著提升了文本和树序列化的性能;可以选择 HTML 或者 XML 输出;还有大量的功能改进和 bug 修复。此版本现已提供下载。 更新内容如下: 改进 可以选择 HTML 或者 XML 输出,默认是 HTML Element.text() 性能改进 Element.html() 性能改进 缩短文件读的时间,同时也改进了文件解析器,提升大概 10% 的速度 添加 Element.cssSelector() Tightened the scope of what characters are escaped i...

38
94
发表了资讯
2013/11/11 00:00

jsoup 1.7.3 发布,超强的 HTML 解析器

jsoup 刚刚发布了 1.7.3 版本,改进了表单处理、更可靠的字符集检测、CSS 选择器和解析的性能提升以及内存优化,修复了一些 bug。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文...

22
107
发表了资讯
2013/01/28 00:00

jsoup 1.7.2 发布,支持 CSS 类伪码选择器

我很高兴的宣布 jsoup 1.7.2 发布了,该版本引入了结构化伪码 CSS 类的选择器,包括::first-child, :last-child, :nth-child, :nth-last-child,:first-of-type, :last-of-type, :nth-of-type, :nth-last-of-type,:only-child, :only-of-type, :empty, and :root。完全支持国际化补充字符,其他方面的提升和 bug 修复。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通...

10
28
发表了资讯
2012/09/24 00:00

jsoup 1.7.1 发布,解析速度提升 2.3 倍

jsoup 1.7.1 发布了,下载地址: jsoup-1.7.1.jar core library jsoup-1.7.1-sources.jar optional sources jar jsoup-1.7.1-javadoc.jar optional javadoc jar jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 该版本在性能和稳定性方面都有不少提升,功能上也做了改进: Improvements: - Improved parse tim...

21
44
发表了资讯
2012/05/29 00:00

jsoup 1.6.3 发布,Java 的 HTML 解析器

jsoup 1.6.3 发布,该版本重构对 Google App Engine 支持的代码,同时修复了一些解析的问题。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本;...

8
14
发表了资讯
2012/03/28 00:00

jsoup 1.6.2 发布,最棒的 Java HTML 解析器

jsoup 1.6.2 发布了,改版包含很多的 bug 修复,松散的 XML 解析模式,功能调整以及内存的改进。 主要改进内容包括: - Added a simplified XML parsing mode, which can usefully parse valid and invalid XML, but does not enforce any HTML document structure or special tag behaviour. - Added the optional ability to track errors when tokenising and parsing. - Added Jsoup.connect.cookies(Map) method, to set ...

3
12
发表了资讯
2011/07/02 00:00

jsoup 1.6.1 发布,HTML解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本; 新版本增加了一个新的 HTML5 兼容的解析器,以及修复了 Java 1.5 和 Android 2.2 的兼容问题。...

0
10
发表了资讯
2011/06/13 00:00

jsoup 1.6.0 发布,支持 HTML5 解析

该版本包含一个支持 HTML5 的解析器分支,可确保跟现在的浏览器一样解析 HTML 的方法,同时降低了解析的时间和内存的占用。增加一些新的常用方法,例如 Element.unwrap() and Node.after() and Node.before(). jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。其他方面的改进请看发行说明。 jsoup的主要功能如下...

7
12
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
31 评论
1K 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部
返回顶部
顶部