jsoup - HTML解析器

MIT
Java 查看源码»
跨平台
2010-01-31
红薯

本站使用 jsoup 来解析 HTML。

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。

jsoup的主要功能如下:

  1. 从一个URL,文件或字符串中解析HTML;

  2. 使用DOM或CSS选择器来查找、取出数据;

  3. 可操作HTML元素、属性、文本;

jsoup是基于MIT协议发布的,可放心使用于商业项目。

示例代码:

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

在线Javadoc:http://tool.oschina.net/apidocs/apidoc?api=jsoup-1.6.3

加载中

评论(31)

因为帅所以自卑
因为帅所以自卑
爬数据用的话,还是挺好的;不过功能希望还能更深的改进,比如用正则表达式。。。。
OSC_HWpTJR
OSC_HWpTJR
自从用了它,身体每况愈下
海亮没有量
海亮没有量
jsoup是信息采集开发神器。。。
红薯
红薯
绝对没有比 #jsoup# 更强大的 HTML 解析器了,其他语言也没有!
8446666
8446666
http://www.sojson.com/blog/search.html?key=jsoup
GOSC
GOSC
jsoup: Java HTML Parser
TerryZ
TerryZ
真的假的,JSOUP可以取代HTTPCLIENT!?
muyu
muyu
jodd也有类似的方法工具类 #jsoup#
tsuno
tsuno
被刷屏了- - #jsoup#
小小怪医芙兰
小小怪医芙兰
试了下开源中国,403为啥? #jsoup#

jsoup 1.11.3 发布,Java 的 HTML 解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下:...

04/16 07:50

jsoup 1.11.2 发布,Java 的 HTML 解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下:...

2017/11/20 14:29

jsoup 1.11.1 发布,最强的 Java HTML 解析器

jsoup 1.11.1 发布了,该版本降低了 30% 的 DOM 内存使用,增加了流式网络 HTML 解析,更快的 HTML 生成以及大量的改进和 bug 修复,下载地址:https://jsoup.org/download 改进 When loadi...

2017/11/06 09:17

jsoup 1.10.3 发布,Java 的 HTML 解析器

jsoup 1.10.3 发布了,该版本带来了更好的 CSS 选择器性能,Jsoup.Connection 改进和其他 bug 修复。 详情包括: Improvements Added Elements.eachText() and Elements.eachAttr(), which ...

2017/06/12 11:57

jsoup 1.10.2 发布,Java 的 HTML 解析器

jsoup 1.10.2 发布了,该版本带来了更快的启动时间,扩展 DOM 树的遍历,提升了 HTTP 兼容性以及修复了一些 bug。 详情包括: Improvements Improved startup time, particularly on Androi...

2017/01/05 09:46

Jsoup 1.10.1 发布,Java 的 HTML 解析器

Jsoup 1.10.1 发布了,Jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。更...

2016/10/24 09:08

jsoup 1.9.2 发布,Java 的 HTML 解析器

jsoup 1.9.2 发布,改进内容包括: 改进: 1. In XML documents, detect the charset from the XML prolog -- <?xml encoding="UTF-8"?> Bug 修复 1. Fixed an issue where tag names that c...

2016/05/18 11:20

jsoup 1.9.1 发布,HTML 解析器

jsoup 1.9.1 发布。 更新日志: 改进: Added support for HTTP and SOCKS request proxies, specifiable per connection. See Connection.proxy(String, int). Added support for sending p...

2016/04/18 09:14

jsoup 1.8.3 发布,HTML 解析器

jsoup 1.8.3 发布,此版本主要改进有:解析大型 HTML 文件的一些性能提升;抓取 XML 文档时,自动切换到 XML 解析器;重要 bug 修复。 更新内容: 改进 Performance improvement on parsing...

2015/08/03 07:42

没有更多内容

加载失败,请刷新页面

12
回答
请教:Jsoup抓取页面(不知何原因被阻止)
Andre.Z 的回答 2011/06/28 10:36
最佳答案
你抓取得太狠了吧,速度快的话,对方网站服务器会不定时有一会无响应,处理如下: 1.对方网站有多个IP的时候,自己写个分发类,轮流去每个ip取。 2.对于1个IP的时候,遇到这种情况,当前线程就自动暂停几秒钟,然后再重试,自动马上重试的话,也有问题。 建议jsoup和httpclient一起用,...
5
回答
jsoup抓取的不是最终的显示页面?

jsoup读取的结果如下: <div class="star sa5"></div> 而我在FireFox浏览器中看到的结果却是这样的 <div clas...

2012/07/18 10:08
3
回答
如何使用jsoup清理html的同时保留css
无聊的人们啊 的回答 2012/08/22 10:34
最佳答案
自问自答一下吧,刚研究了一下jsoup的API,Whitelist的addAttributes能解决问题,继续研究了...
36
回答
OSChina 已使用 jsoup 来对帖子内容进行过滤

OSChina 今天早上刚刚对代码进行了改造,使用 jsoup 替换原有的 Htmlparser 来对包括发帖、回帖和评论等内容进行安全过滤。 过滤的条件...

2010/08/05 09:58
2
回答
Jsoup怎么解析页面中的示例代码

Jsoup怎么解析页面中的示例代码 比如页面中有一段示例代码显示为: <meta http-equiv="Content-Type" content="t...

02/02 11:14
3
回答
jsoup post json

如何在jsoup.connect 中 提交一个json 参数呢

2015/09/03 20:27
3
回答
JSoup 直接抓取 URL 时对内容长度限制的解决办法

JSoup 不只是一个 HTML 的解析器,它自带的 HTTP 客户端包非常好用,而且很简单,至少比 HttpClient 要简单好多。 但是在使用过程中...

2017/11/24 20:11
5
回答
用JSOUP解析HTML,怎样删除掉其中的一段DIV标签及内容?

需求是这样的,做了一个新闻客户端,想用WEBVIEW显示新闻的内容,所以就涉及到HTML的解析,截取HTML里自己想要的内容,网上看了下 JSOUP 解析...

2012/04/20 11:24
8
回答
jsoup获取html页面乱码
francis-x 的回答 2013/10/29 15:55
最佳答案
我用的是正常的呀,你是用的Jsoup么?你给的代码应该是Java net API吧? public class Main { public static void main(String[] args) throws IOException { Document jsoup = Jsoup.c...

没有更多内容

加载失败,请刷新页面

jsoup 相关资料

1.jsoup 2.Jsoup概述 3.jsoup入门 4.jsoup Java HTML Parser 1.11.3 API 5.Jsoup学习笔记

07/21 14:28
4
0
使用 jsoup 对 HTML 文档进行解析和操作

soup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。本文主要介绍如...

2014/09/16 15:15
259
1
Jsoup总结

最近使用了Jsoup,感觉还是挺简单,挺方便的,轻而易举地使用java像jQuery一样操作html节点,轻松抓取网页源码,分析获取各个标签所需的东西。 对于采集网页类具有相当方便的作用 具体可看下...

2014/09/24 13:58
56
0
Jsoup代码解读之一-概述

今天看到一个用python写的抽取正文的东东,美滋滋的用Java实现了一番,放到了webmagic里,然后发现Jsoup里已经有了…觉得自己各种不靠谱啊!算了,静下心来学学好东西吧! Jsoup是Java世界用...

2013/08/25 21:13
4.6K
9
jsoup解析的常见用法

1、解析attribute中值,如下面所示的serviceID和serviceName: String str="如下所示"; <Root> <Item serviceID="16" serviceName="住家保姆" /> <Item serviceID="17" serviceName="不住家保...

2015/12/11 09:53
3
0
使用 jsoup 对 HTML 文档进行解析和操作

刘 柄成, 站长, 开源中国社区 简介: jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作...

2011/03/02 22:29
887
0
jsoup抓取网页+详细讲解

Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和 扩展 HTMLParser 对...

2012/12/25 14:57
6.3K
1
Jsoup Post 登陆搜外论坛并获取Cookies 2015-08-21

Jsoup Post 登陆搜外论坛并获取Cookies 2015-08-21

2015/08/21 15:45
27
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部