jsoup 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
jsoup 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
jsoup 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
jsoup 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
jsoup 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 MIT
开发语言 Java 查看源码 »
操作系统 跨平台
软件类型 开源软件
所属分类 Web应用开发HTML解析器
开源组织
地区 不详
投 递 者 红薯
适用人群 未知
收录时间 2010-01-31

软件简介

jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM、CSS 以及类似于 JQuery 的操作方法来取出和操作数据。

本站使用 jsoup 来解析 HTML。

jsoup的主要功能如下:

  1. 从一个URL,文件或字符串中解析HTML;

  2. 使用DOM或CSS选择器来查找、取出数据;

  3. 可操作HTML元素、属性、文本;

jsoup是基于MIT协议发布的,可放心使用于商业项目。

示例代码:

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

在线Javadoc:http://tool.oschina.net/apidocs/apidoc?api=jsoup-1.6.3

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (31)

加载中
打分: 力荐
爬数据用的话,还是挺好的;不过功能希望还能更深的改进,比如用正则表达式。。。。
2018/06/05 15:03
回复
举报
自从用了它,身体每况愈下
2017/11/06 11:01
回复
举报
打分: 力荐
jsoup是信息采集开发神器。。。
2017/11/06 09:35
回复
举报
绝对没有比 #jsoup# 更强大的 HTML 解析器了,其他语言也没有!
2017/03/11 21:50
回复
举报
http://www.sojson.com/blog/search.html?key=jsoup
2017/03/02 19:36
回复
举报
打分: 力荐
jsoup: Java HTML Parser
2017/02/17 15:26
回复
举报
真的假的,JSOUP可以取代HTTPCLIENT!?
2017/01/05 10:01
回复
举报
用着好爽 jsoup
2012/10/11 09:24
回复
举报
好用! jsoup
2013/05/31 17:02
回复
举报
! 终于发现 java 的版本 了 ~ jsoup
2013/08/09 21:26
回复
举报
更多评论
发表于大前端专区
2020/03/03 07:27

Java HTML 解析器 jsoup 发布 1.13.1,解析速度显著提升

jsoup 1.13.1 已发布,值得关注的改进包括:解析速度较 1.12.x 有了显著提升、选择器增加新特性、修复 Mark Invalid 出现异常的问题,以及许多其他的改进。 jsoup 是最好的 Java HTML 解析器(红薯认证),它使用最好的 HTML5 DOM 方法和 CSS 选择器,为提取和处理数据提供了非常方便的 API。感受一下代码: Document doc = Jsoup.connect("https://en.wikipedia.org/").get(); log(doc.title()); Elements newsHeadlines ...

10
28
发表于大前端专区
2019/05/13 10:40

jsoup 1.12.1 发布,最好的 Java HTML 解析器,没有之一

jsoup 1.12.1 发布了,该版本包含众多可用性的提升,提升了解析速度和内存效率,修复了不少 bug 。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 下载地址:Download 完整的改进记录如下: Changes Change: removed deprecated method to disable TLS cert checking in Connection.validateTLSCertificates...

13
58
发表于大前端专区
2018/04/16 07:50

jsoup 1.11.3 发布,Java 的 HTML 解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本; jsoup是基于MIT协议发布的,可放心使用于商业项目。 此次更新内容: 改进 CDATA sections are now treated as whitespace pre...

13
30
发表了资讯
2017/11/20 14:29

jsoup 1.11.2 发布,Java 的 HTML 解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本; jsoup是基于MIT协议发布的,可放心使用于商业项目。 此次更新内容: 改进 Added a new pseudo selector :matchText, which al...

5
41
发表了资讯
2017/11/06 09:17

jsoup 1.11.1 发布,最强的 Java HTML 解析器

jsoup 1.11.1 发布了,该版本降低了 30% 的 DOM 内存使用,增加了流式网络 HTML 解析,更快的 HTML 生成以及大量的改进和 bug 修复,下载地址:https://jsoup.org/download 改进 When loading content from a URL or a file, the content is now parsed as it streams in from the network or disk, rather than being fully buffered before parsing. This substantially reduces memory consumption & large garbage objects...

14
33
发表了资讯
2017/06/12 12:01

jsoup 1.10.3 发布,Java 的 HTML 解析器

jsoup 1.10.3 发布了,该版本带来了更好的 CSS 选择器性能,Jsoup.Connection 改进和其他 bug 修复。 详情包括: Improvements Added Elements.eachText() and Elements.eachAttr(), which return a list of an Element's text or attribute values, respectively. This makes it simpler to for example get a list of each URL on a page: List<String> urls = doc.select("a").eachAttr("abs:href""); Improved selector va...

11
26
发表了资讯
2017/01/05 09:46

jsoup 1.10.2 发布,Java 的 HTML 解析器

jsoup 1.10.2 发布了,该版本带来了更快的启动时间,扩展 DOM 树的遍历,提升了 HTTP 兼容性以及修复了一些 bug。 详情包括: Improvements Improved startup time, particularly on Android, by reducing garbage generation and CPU execution time when loading the HTML entity files. About 1.72x faster in this area. Added Element.is(query) to check if an element matches this CSS query. Added new methods to El...

18
27
发表了资讯
2016/10/24 00:00

Jsoup 1.10.1 发布,Java 的 HTML 解析器

Jsoup 1.10.1 发布了,Jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。更新内容如下: 改进 Improved support for extended HTML entities, including supplemental characters and multiple character references. Also reduced memory consumption of the entity tables. Added support for *|E wildcard n...

7
44
发表了资讯
2016/05/18 00:00

jsoup 1.9.2 发布,Java 的 HTML 解析器

jsoup 1.9.2 发布,改进内容包括: 改进: 1. In XML documents, detect the charset from the XML prolog -- <?xml encoding="UTF-8"?> Bug 修复 1. Fixed an issue where tag names that contained non-ascii characters but started with an ascii character would cause the parser to get stuck in an infinite loop. 2. Fixed an issue where API created XML documents would have an incorrect prolog. 3. Fixed an iss...

10
60
发表了资讯
2016/04/18 00:00

jsoup 1.9.1 发布,HTML 解析器

jsoup 1.9.1 发布。 更新日志: 改进: Added support for HTTP and SOCKS request proxies, specifiable per connection. See Connection.proxy(String, int). Added support for sending plain HTTP request bodies in POST and PUT requests, with Connection.requestBody(String). Added support in Jsoup.Connect() for HEAD, OPTIONS, and TRACE. Added support for HTTP 307 Temporary Redirect (replays posts, if appl...

9
45
发表了资讯
2015/08/03 00:00

jsoup 1.8.3 发布,HTML 解析器

jsoup 1.8.3 发布,此版本主要改进有:解析大型 HTML 文件的一些性能提升;抓取 XML 文档时,自动切换到 XML 解析器;重要 bug 修复。 更新内容: 改进 Performance improvement on parsing larger HTML pages. On Android KitKat, around 1.7x times faster. On Android Lollipop, ~ 1.3x faster. Improvements largely from re-ordering the HtmlTreeBuilder methods based on analysis of various websites; also from furt...

31
77
发表了资讯
2015/04/15 00:00

jsoup 1.8.2 发布,HTML 解析器

jsoup 1.8.2 发布,此版本提升了 Android,HTML 解析,HTML 生成,查询等方面的性能。同时添加了文件上传,W3C DOM 互操作等功能,还有其他的改进和 bug 修复。 更新内容 改进 提升 Android 解析 HTML 的性能 提升 Android HTML 序列化的性能 加快 Andorid 上字符集编码速度 提升 Andorid 上 selector 类的性能 支持文件上传 Add a meta-charset element to documents when setting the character set Added ability to disabl...

22
72
发表了资讯
2014/09/28 00:00

jsoup 1.8.1 发布,极大的性能提升!

jsoup 1.8.1 发布啦! jsoup 1.8.1 显著提升了文本和树序列化的性能;可以选择 HTML 或者 XML 输出;还有大量的功能改进和 bug 修复。此版本现已提供下载。 更新内容如下: 改进 可以选择 HTML 或者 XML 输出,默认是 HTML Element.text() 性能改进 Element.html() 性能改进 缩短文件读的时间,同时也改进了文件解析器,提升大概 10% 的速度 添加 Element.cssSelector() Tightened the scope of what characters are escaped i...

38
94
发表了资讯
2013/11/11 00:00

jsoup 1.7.3 发布,超强的 HTML 解析器

jsoup 刚刚发布了 1.7.3 版本,改进了表单处理、更可靠的字符集检测、CSS 选择器和解析的性能提升以及内存优化,修复了一些 bug。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文...

22
107
发表了资讯
2013/01/28 00:00

jsoup 1.7.2 发布,支持 CSS 类伪码选择器

我很高兴的宣布 jsoup 1.7.2 发布了,该版本引入了结构化伪码 CSS 类的选择器,包括::first-child, :last-child, :nth-child, :nth-last-child,:first-of-type, :last-of-type, :nth-of-type, :nth-last-of-type,:only-child, :only-of-type, :empty, and :root。完全支持国际化补充字符,其他方面的提升和 bug 修复。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通...

10
28
发表了资讯
2012/09/24 00:00

jsoup 1.7.1 发布,解析速度提升 2.3 倍

jsoup 1.7.1 发布了,下载地址: jsoup-1.7.1.jar core library jsoup-1.7.1-sources.jar optional sources jar jsoup-1.7.1-javadoc.jar optional javadoc jar jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 该版本在性能和稳定性方面都有不少提升,功能上也做了改进: Improvements: - Improved parse tim...

21
44
发表了资讯
2012/05/29 00:00

jsoup 1.6.3 发布,Java 的 HTML 解析器

jsoup 1.6.3 发布,该版本重构对 Google App Engine 支持的代码,同时修复了一些解析的问题。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本;...

8
14
发表了资讯
2012/03/28 00:00

jsoup 1.6.2 发布,最棒的 Java HTML 解析器

jsoup 1.6.2 发布了,改版包含很多的 bug 修复,松散的 XML 解析模式,功能调整以及内存的改进。 主要改进内容包括: - Added a simplified XML parsing mode, which can usefully parse valid and invalid XML, but does not enforce any HTML document structure or special tag behaviour. - Added the optional ability to track errors when tokenising and parsing. - Added Jsoup.connect.cookies(Map) method, to set ...

3
12
发表了资讯
2011/07/02 00:00

jsoup 1.6.1 发布,HTML解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本; 新版本增加了一个新的 HTML5 兼容的解析器,以及修复了 Java 1.5 和 Android 2.2 的兼容问题。...

0
10
发表了资讯
2011/06/13 00:00

jsoup 1.6.0 发布,支持 HTML5 解析

该版本包含一个支持 HTML5 的解析器分支,可确保跟现在的浏览器一样解析 HTML 的方法,同时降低了解析的时间和内存的占用。增加一些新的常用方法,例如 Element.unwrap() and Node.after() and Node.before(). jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。其他方面的改进请看发行说明。 jsoup的主要功能如下...

7
12
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2016/09/18 15:37

Jsoup学习之Jsoup类

Jsoup类 一、类结构 java.lang.Object org.jsoup.Jsoup public classJsoup extends Object Jsoup类来自于org.jsoup.Jsoup包,并且继承自Object类。 二、方法 Method Summary static String clean(String bodyHtml, String baseUri, Whitelist whitelist) 使用Whitelist对输入的Html文档过滤,只允许特定的标签或者属性,防止恶意代码。 static String clean(String bodyHtml, String baseUri, Whitelist whitelist, Document.O...

0
0
发表了博客
2012/09/13 13:57

Jsoup

官方网站:http://jsoup.org/,相关jar包、src下载: jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本; jsoup是基于MIT协议发布的,可放心使用于商业项目。 示例: package cn...

0
0
发表了博客
2016/09/13 13:20

JSOUP 教程,JSOUP请求JSON ,JSOUP返回JSON 数据

原文链接:http://www.sojson.com/blog/174.html 在用习惯了 JSOUP 后,因为那种链式结构,非常喜欢,故想用它来请求接口,构造请求头的时候非常方便。其实它必须是支持的,因为底层使用的还是 HttpConnection 做为处理的,代码如下: Document doc = Jsoup     .connect(Constant.DATA_URL)     .header("Accept", "*/*")     .header("Accept-Encoding", "gzip, deflate")     .header("Accept-Language","zh-CN...

0
3
发表了博客
2019/02/15 10:30

[转]Jsoup(一)Jsoup详解(官方)

原文地址:http://www.cnblogs.com/zhangyinhua/p/8037599.html 一、Jsoup概述 1.1、简介 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,  可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 1.2、Jsoup的主要功能 1)从一个URL,文件或字符串中解析HTML 2)使用DOM或CSS选择器来查找、取出数据 3)可操作HTML元素、属性、文本 注意:jsoup是基于MIT协议发布的,...

0
0
发表了博客
2011/03/08 14:23

Jsoup

http://www.ibm.com/developerworks/cn/java/j-lo-jsouphtml/

0
2
发表了博客
2013/09/17 10:24

Jsoup 之入门

1、jsoup 简介 部分摘自 http://www.ibm.com/developerworks/cn/java/j-lo-jsouphtml/ Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,Jsoup 功能比 htmlparser 更加强大,而且代码实现更加简单 jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。 jsoup 的主要功能如下: 1....

0
3
发表了博客
2017/11/08 17:14

JSOUP教程,JSOUP 乱码处理,JSOUP生僻字乱码解决方案

JSOUP乱码情况产生 这几天我用 JSOUP 多线程的方式,爬取了200 多万数据,数据为各地的地名相关。结果有小部分数据,不到 1 万乱码。我先检查了我的编码为UTF-8 ,觉得应该没有问题。代码基本如下如下: try{ doc = Jsoup.connect(url) .header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:49.0) Gecko/20100101 Firefox/49.0") .header("Connection", "close")//如果是这种方式,这里务必带上 .timeout(8000)...

0
0
发表了博客
2019/05/28 21:02

Jsoup笔记

1. 什么是Jsoup Jsoup是一款Java 的HTML(html也是XML文档)解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery选择器的操作方法来取出和操作数据。所以使用jsoup就可以解析HTML。 Jsoup使用的是DOM解析方式,把整个HTML文档(XML文档)加载到内存中形成一棵DOM树,得到文档的Document对象。HTML里的标签,会转换成Element对象。 jar包: 2. Jsoup的基本使用步骤 解析HTM...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表于大前端专区
2019/09/09 20:26

jsoup 获取内容不全的问题

使用jsoup读取URL,解析内容。但是遇到获得文档不全。 1. 设置maxBodySize(0)不起作用,后来在http://www.wityx.com/post/288_1_1.html 帮助下获取到完整的内容 2. 赋值时发现,某项数据,在debug时我可以获取到,但不debug时却获取不到。后来在https://blog.csdn.net/weixin_34130389/article/details/85887340的启发下,每一次jsoup的connection连接赋值前,都线程休眠1s,仍不行;2s秒;还不行。总之经过各种尝试,后来发现...

2
0
发表了问答
2011/05/05 11:50

关于Jsoup 的Whitelist.basicWithImages

public void test() throws Exception { String str="<img src=\"beati.gif\"/>wefwef"; Whitelist user_content_filter = Whitelist.basicWithImages(); System.out.println(Jsoup.clean(str,user_content_filter)); } 很简单 。出现的问题 允许img 标签 ,img标签没哟被清除 但是src属性被清除了 。大家知道为什么吗?...

8
1
发表了问答
2011/06/26 17:31

请教:Jsoup抓取页面(不知何原因被阻止)

之前看过红薯的一个帖子 这么写是否正确 Document doc = Jsoup.connect(homepage).userAgent("Mozilla/5.0 (Windows NT 6.1; rv:5.0)").cookie("auth", "token").timeout(1000).get(); 请大家不吝赐教 谢谢 错误代码如下 时而connet time out 时而read time out Exception in thread "main" java.net.SocketTimeoutException: Read timed out   at java.net.SocketInputStream.socketRead0(Native Method)   at java.net.SocketI...

14
0
发表了问答
2012/07/18 10:08

jsoup抓取的不是最终的显示页面?

jsoup读取的结果如下: <div class="star sa5"></div> 而我在FireFox浏览器中看到的结果却是这样的 <div class="star sa4"></div> 这个怎么理解? 初步确定为是jsoup抓取的是js加载之前的页面

5
0
发表了问答
2012/08/22 09:48

如何使用jsoup清理html的同时保留css

也就是保留指定的html标签和里面的css,我刚测试了一下 String safe = Jsoup.clean(unsafe, Whitelist.basic()); 这样把css也清除掉了,有什么好的方法不清除css吗

3
0
发表了问答
2010/08/05 09:58

OSChina 已使用 jsoup 来对帖子内容进行过滤

OSChina 今天早上刚刚对代码进行了改造,使用 jsoup 替换原有的 Htmlparser 来对包括发帖、回帖和评论等内容进行安全过滤。 过滤的条件也比原来的要严格很多,主要是为了避免一些跨站点的脚本攻击。 如果在使用中遇见某些内容输入有误,例如某些标签或者属性被过滤掉,请告知于我,我将酌情处理。 下面是 OSChina 对输入内容进行过滤的代码: private final static Whitelist user_content_filter = Whitelist.relaxed(); stat...

39
47
发表于大前端专区
2018/02/02 11:14

Jsoup怎么解析页面中的示例代码

Jsoup怎么解析页面中的示例代码 比如页面中有一段示例代码显示为: <meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8"> 抓取完还想显示成这样,但实际会把里面加上换行 空格和把半角双引号转为全角双引号等,怎么样能原样抓取下来呢,请高手指点,谢谢! 实际上要想的是像提取Cnblogs文章一样,里面有代码,也有文字,想原样提取出来,在别处显示也正常...

2
0
发表了问答
2015/09/03 20:27

jsoup post json

如何在jsoup.connect 中 提交一个json 参数呢

6
0
发表了问答
2017/11/24 20:11

JSoup 直接抓取 URL 时对内容长度限制的解决办法

JSoup 不只是一个 HTML 的解析器,它自带的 HTTP 客户端包非常好用,而且很简单,至少比 HttpClient 要简单好多。 但是在使用过程中发现在读取一些内容很大的不管文本或者图片时都会被截断。净研究发现默认 JSoup 的限制是 1024*1024,也就是 1M 的大小。 因此我们需要在连接时设置一下 maxBodySize ,具体方法如下: Document = Jsoup.connect(url) .header("Accept-Encoding", "gzip, deflate") .userAgent("Mozilla/...

8
6
发表了问答
2012/04/20 11:24

用JSOUP解析HTML,怎样删除掉其中的一段DIV标签及内容?

需求是这样的,做了一个新闻客户端,想用WEBVIEW显示新闻的内容,所以就涉及到HTML的解析,截取HTML里自己想要的内容,网上看了下 JSOUP 解析HTML挺方便的,但是关于JSOUP的教程太少了,只能靠官方的文档,目前 新闻内容已经获取到了,但是有部分新闻不止一页,还有下一页,下一页等,如果遇到这种新闻,则内容DIV的标签下 就会多出很多标签,如新闻转发的,更多新闻的等等 。HTML代码如下: <div id="content"> 这里是新闻的内...

8
1
发表了问答
2013/06/18 10:00

jsoup如何在指定位置添加一个div节点

如题

2
0
发表了问答
2013/10/29 13:27

jsoup获取html页面乱码

有人知道为什么我用jsoup获取这个页面一直都是乱码,编码都尝试了一遍都不行 http://sports.xinmin.cn/2013/10/27/22446248.html 有人有时间的话帮忙看看? public static String readHtml(String myurl)   {    StringBuffer sb = new StringBuffer("");    URL url;    try {    url = new URL(myurl);    BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(),        "...

8
0
发表了问答
2012/07/25 22:42

求助,jsoup解析html时的乱码问题

String html = "<p>   </p>"; System.out.println(Jsoup.parse(html).text()); 控制台输出为 ??? 求助该如何解决??

11
0
发表了问答
2012/11/20 21:59

Jsoup 采集回来的信息出现乱码

Document doc = Jsoup.connect(URL)timeout(1000).get(); String docStr = doc.toString(); String str = new String(docStr.getBytes("ISO8859-1"), "UTF-8"); Document document = Jsoup.parse(str); 这样做什么地方有问题呢 采集信息出现乱码,我真是努力了,看了好几个文章都没解决这个问题...

10
0
发表了问答
2011/01/14 10:51

关于jsoup解析TXT中文乱码问题

我JSOUP代码: URL url_1 = new URL(filepath); Document text = Jsoup.parse(url_1,5*1000); System.out.println(text.html()); 请高人帮忙

19
1
发表了问答
2014/11/17 15:33

JSOUP class如何替换style?

<style>.ls{color:#ffffff;}</style> <div class="ls">XX</div> 利用转换为 <div style="color:#ffffff;">XX</div> 如何破?

2
0
发表了问答
2017/03/30 17:09

jsoup提取网页表格

java编程,利用jsoup提取网页表格,判断表格是否是规则的几行几列,连接数据库建立相应的表格。希望大神能够帮忙解决。 以下是我写的一点代码,能在原基础上修改,实现判断表格的行数和列数。(数据库部分还没有写) package html2; import java.io.IOException; import java.text.ParseException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; public class test1 { public s...

3
0
发表了问答
2017/03/13 11:26

jsoup解析html 在正则报的错,不知道什么错

我的正则是这个 String Regular = "<tr height=\"25\">([^>]*>){3}(?<StockCode>[^<]*)([^>]*>){3}(?<StockName>[^<]*)([^>]*>){6}(?<trade>[^<]*)([^>]*>){3}(?<UpToPrice>[^<]*)([^>]*>){2}(?<ZF>[^<]*)([^>]*>){2}(?<SZ>[^<]*)([^>]*>){2}(?<SYL>[^<]*)([^>]*>){2}(?<ZF3>[^<]*)([^>]*>){2}(?<ZF_halfyear>[^<]*)([^>]*>){2}(?<je>[^<]*)([^>]*>){2}(?<ddx>[^<]*)([^>]*>){2}(?<ddy>[^<]*)([^>]*>){2}(?<ddz>[^<]*)([^>]*>){...

3
0
发表了问答
2017/01/08 11:18

网络爬虫,java语言写的,爬不到正确的网页源码,百思不得其解,不知问题症结在哪里?求助爬虫前辈们

@黄亿华 你好,想跟你请教个问题: 有幸发现了这个网站,拜读了大神们关于网络爬虫的博客,受益良多。 作为爬虫方面的小白,眼下我也正在开展爬虫的一个工作内容(用的java语言),遇到个难以理解的问题,百度、q发帖等多方渠道求助无果,特意向大神请教一下,希望不会占用太多时间。 我想爬取网页上的数据,想先爬到网页源码保存到本地,然后用正则表达式抽取数据。但是有些网页的源码爬取不到,不知为何,java中的httpURLConn...

17
3
发表了问答
2016/12/27 17:55

对爬虫爬取到的数据管理

大家在管理爬取到数据的时候,一般对异常数据是怎么进行防御的? 比如对一个网站的商品爬取下来后,每天都自动更新最新的信息,但是如果目标网站大批量返回错误数据,这样一下子就把之前的正确数据洗掉了。而且这些错误数据比如说价格,原来是20块,一下子返回200块,数据类型一样,但是值的意义不同了。 严格来说,这不是技术问题,所以请不要简单给个建议说用xx技术之类的。

4
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
31 评论
1K 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部