jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。
示例代码:
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}
该版本在解析性能上比以前提升了 3.5 倍,而HTML输出性能上提升了 2.5 倍,更低的内存占用率,增加对正则文本和属性选择器的支持。
暂无更多评论