HTML解析器 jsoup

MIT
Java 查看源码»
跨平台
2010-01-31
红薯

完善个人资料领开源豆,速来抽奖!>>>

本站使用 jsoup 来解析 HTML。

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。

jsoup的主要功能如下:

  1. 从一个URL,文件或字符串中解析HTML;

  2. 使用DOM或CSS选择器来查找、取出数据;

  3. 可操作HTML元素、属性、文本;

jsoup是基于MIT协议发布的,可放心使用于商业项目。

示例代码:

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

在线Javadoc:http://tool.oschina.net/apidocs/apidoc?api=jsoup-1.6.3

的码云指数为
超过 的项目
加载中

评论(31)

因为帅所以自卑
因为帅所以自卑
爬数据用的话,还是挺好的;不过功能希望还能更深的改进,比如用正则表达式。。。。
OSC_HWpTJR
OSC_HWpTJR
自从用了它,身体每况愈下
海亮没有量
海亮没有量
jsoup是信息采集开发神器。。。
红薯
红薯
绝对没有比 #jsoup# 更强大的 HTML 解析器了,其他语言也没有!
8446666
8446666
http://www.sojson.com/blog/search.html?key=jsoup
GOSC
GOSC
jsoup: Java HTML Parser
TerryZ
TerryZ
真的假的,JSOUP可以取代HTTPCLIENT!?
超人归来
超人归来
用着好爽 jsoup
langke
langke
好用! jsoup
sjack
sjack
! 终于发现 java 的版本 了 ~ jsoup

Java HTML 解析器 jsoup 发布 1.13.1,解析速度显著提升

jsoup 1.13.1 已发布,值得关注的改进包括:解析速度较 1.12.x 有了显著提升、选择器增加新特性、修复 Mark Invalid 出现异常的问题,以及许多其他的改进。 jsoup 是最好的 Java HTML 解析器...

03/03 07:27

jsoup 1.12.1 发布,最好的 Java HTML 解析器,没有之一

jsoup 1.12.1 发布了,该版本包含众多可用性的提升,提升了解析速度和内存效率,修复了不少 bug 。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非...

2019/05/13 10:40

jsoup 1.11.3 发布,Java 的 HTML 解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下:...

2018/04/16 07:50

jsoup 1.11.2 发布,Java 的 HTML 解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下:...

2017/11/20 14:29

jsoup 1.11.1 发布,最强的 Java HTML 解析器

jsoup 1.11.1 发布了,该版本降低了 30% 的 DOM 内存使用,增加了流式网络 HTML 解析,更快的 HTML 生成以及大量的改进和 bug 修复,下载地址:https://jsoup.org/download 改进 When loadi...

2017/11/06 09:17

jsoup 1.10.3 发布,Java 的 HTML 解析器

jsoup 1.10.3 发布了,该版本带来了更好的 CSS 选择器性能,Jsoup.Connection 改进和其他 bug 修复。 详情包括: Improvements Added Elements.eachText() and Elements.eachAttr(), which ...

2017/06/12 11:57

jsoup 1.10.2 发布,Java 的 HTML 解析器

jsoup 1.10.2 发布了,该版本带来了更快的启动时间,扩展 DOM 树的遍历,提升了 HTTP 兼容性以及修复了一些 bug。 详情包括: Improvements Improved startup time, particularly on Androi...

2017/01/05 09:46

Jsoup 1.10.1 发布,Java 的 HTML 解析器

Jsoup 1.10.1 发布了,Jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。更...

2016/10/24 09:08

jsoup 1.9.2 发布,Java 的 HTML 解析器

jsoup 1.9.2 发布,改进内容包括: 改进: 1. In XML documents, detect the charset from the XML prolog -- <?xml encoding="UTF-8"?> Bug 修复 1. Fixed an issue where tag names that c...

2016/05/18 11:20

jsoup 1.9.1 发布,HTML 解析器

jsoup 1.9.1 发布。 更新日志: 改进: Added support for HTTP and SOCKS request proxies, specifiable per connection. See Connection.proxy(String, int). Added support for sending p...

2016/04/18 09:14

没有更多内容

加载失败,请刷新页面

7
回答
httpclient+jsoup怎么获取网站中iframe里面的值

用httpclient模仿请求一个网站,获取得到的网页内容中都是iframe,但页面上面可以看到显示的内容,怎么获取iframe里面的内容啊

2013/11/06 16:43
2
回答
jsoup 获取内容不全的问题

使用jsoup读取URL,解析内容。但是遇到获得文档不全。 1. 设置maxBodySize(0)不起作用,后来在http://www.wityx.com...

2019/09/09 20:26
7
回答
关于Jsoup 的Whitelist.basicWithImages

public void test() throws Exception { String str="<img src=\"beati.g...

2011/05/05 11:50
12
回答
请教:Jsoup抓取页面(不知何原因被阻止)
Andre.Z 的回答 2011/06/28 10:36
最佳答案
你抓取得太狠了吧,速度快的话,对方网站服务器会不定时有一会无响应,处理如下: 1.对方网站有多个IP的时候,自己写个分发类,轮流去每个ip取。 2.对于1个IP的时候,遇到这种情况,当前线程就自动暂停几秒钟,然后再重试,自动马上重试的话,也有问题。 建议jsoup和httpclient一起用,...
5
回答
jsoup抓取的不是最终的显示页面?

jsoup读取的结果如下: <div class="star sa5"></div> 而我在FireFox浏览器中看到的结果却是这样的 <div clas...

2012/07/18 10:08
3
回答
如何使用jsoup清理html的同时保留css
walker2011 的回答 2012/08/22 10:34
最佳答案
自问自答一下吧,刚研究了一下jsoup的API,Whitelist的addAttributes能解决问题,继续研究了...
36
回答
OSChina 已使用 jsoup 来对帖子内容进行过滤

OSChina 今天早上刚刚对代码进行了改造,使用 jsoup 替换原有的 Htmlparser 来对包括发帖、回帖和评论等内容进行安全过滤。 过滤的条件...

2010/08/05 09:58
2
回答
Jsoup怎么解析页面中的示例代码

Jsoup怎么解析页面中的示例代码 比如页面中有一段示例代码显示为: <meta http-equiv="Content-Type" content="t...

2018/02/02 11:14
3
回答
jsoup post json

如何在jsoup.connect 中 提交一个json 参数呢

2015/09/03 20:27
3
回答
JSoup 直接抓取 URL 时对内容长度限制的解决办法

JSoup 不只是一个 HTML 的解析器,它自带的 HTTP 客户端包非常好用,而且很简单,至少比 HttpClient 要简单好多。 但是在使用过程中...

2017/11/24 20:11

没有更多内容

加载失败,请刷新页面

Preventing XSS with JSOUP

JSOUP is XSS prevention tool. Jsoup can detect xss script in html and url also. Now i am giving example with url. Jsoup can validate the url with the help of "isValidate()" meth...

2015/08/10 14:38
175
0
JavaWeb 之 XML 解析器 — Jsoup

一、Jsoup 解析步骤   Jsoup中文帮助API:https://www.open-open.com/jsoup/   步骤: 1、导入 jar 包(官网下载地址:Jsoup官网) 2、解析 XML文件   ① 得到解析文件的路径:类加载器...

03/03 20:59
91
0
JSOUP教程,JSOUP 乱码处理,JSOUP生僻字乱码解决方案

JSOUP乱码情况产生 这几天我用 JSOUP 多线程的方式,爬取了200 多万数据,数据为各地的地名相关。结果有小部分数据,不到 1 万乱码。我先检查了我的编码为UTF-8 ,觉得应该没有问题。代码基本...

2017/11/08 17:14
798
0
Jsoup进阶之获取指定数据

Jsoup进阶之获取指定数据

2015/07/26 16:26
3.9K
0
使用 jsoup 对 HTML 文档进行解析和操作

刘 柄成, 站长, 开源中国社区 简介: jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作...

2011/03/02 22:29
1.9K
0
使用Jsoup解析html网页

一、 JSOUP简介 在以往用java来处理解析HTML文档或者片段时,我们通常会采用htmlparser(http://htmlparser.sourceforge.net/)这个开源类库。现在我们有了JSOUP,以后的处理HTML的内容只需要...

2013/05/01 11:00
1.5W
1
Jsoup代码解读之七-实现一个CSS Selector

![street fighter][1] 当当当!终于来到了Jsoup的特色:CSS Selector部分。selector也是我写的爬虫框架[webmagic](https://github.com/code4craft/webmagic)开发的一个重点。附上一张street ...

2013/08/30 21:23
3K
1
Jsoup代码解读之三-Document的输出

Jsoup官方说明里,一个重要的功能就是***output tidy HTML***。这里我们看看Jsoup是如何输出HTML的。 ## HTML相关知识 分析代码前,我们不妨先想想,"tidy HTML"到底包括哪些东西: * 换行,...

2013/08/26 20:23
5.1K
2
Jsoup代码解读之四-parser(上)

作为Java世界最好的HTML 解析库,Jsoup的parser实现非常具有代表性。这部分也是Jsoup最复杂的部分,需要一些数据结构、状态机乃至编译器的知识。好在HTML语法不复杂,解析只是到DOM树为止,所...

2013/08/28 14:17
2K
2
Java爬虫利器HTML解析工具-Jsoup

  Jsoup简介      Java爬虫解析HTML文档的工具有:htmlparser, Jsoup。本文将会详细介绍Jsoup的使用方法,10分钟搞定Java爬虫HTML解析。      Jsoup可以直接解析某个URL地址、HTM...

2019/06/21 14:11
673
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部