开源中国8-2期软件推荐 jsoup — Java的HTML解析器 - 开源中国社区
开源中国8-2期软件推荐 jsoup — Java的HTML解析器
鉴客 2010年08月09日

开源中国8-2期软件推荐 jsoup — Java的HTML解析器

鉴客 鉴客 发布于2010年08月09日 收藏 7 评论 0

有免费的MySQL,为什么还要买? >>>  

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。本站就是采用 jsoup 来做 HTML 处理。

示例代码:

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

目前 jsoup 最新的版本是 1.2.3,详情请看这里

一些相关的帖子:

OSChina 已使用 jsoup 来对帖子内容进行... 

OSChina 今天早上刚刚对代码进行了改造,使用 jsoup 替换原有的 Htmlparser 来对包括发帖、回帖和评论等内容进行安全过滤。 ... 查看全文

jsoup 对 html 文档中链接处理的一个不错... 

一个 html 文档中经常有很多链接,而这些链接可能包含主机地址,可能不包含,也可能是一个相对的地址,例如 查看全文

jsoup 只需要一行代码,就可将 html 转成... 

jsoup 就是这么酷,只用一行代码就可以将html转成纯文本: String html = "你好,我是来自查看全文

jsoup 修改节点的属性、内容 

jsoup 解析 html 文档 (Document) 时,节点对应的类是 Element 。 我们可以调用 Element 的 attr 方法来修改属性值,同时可对... 查看全文

jsoup 处理可能怀有恶意的 html 代码... 

在做网站的时候,经常会提供用户评论的功能。有些用户比较淘气,会搞一些脚本到评论内容中,这些脚本可能会破坏整个页面的行为... 查看全文

jsoup 的选择器一览表 

选择器是 jsoup 用来从 html 文档中对元素进行过滤的强大工具。 先看下面一段例子: File input = new File("/tmp/input.html... 查看全文

jsoup 来解析 html 文档中的各种链接... 

本帖主要介绍利用 jsoup 将 html 文档中的链接、图片以及其他引入的链接解析出来。 运行时需要传入要解析的URL地址,程序将自... 查看全文

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:开源中国8-2期软件推荐 jsoup — Java的HTML解析器
分享
评论(0)
最新评论
顶部