开源中国

我们不支持 IE 10 及以下版本浏览器

It appears you’re using an unsupported browser

为了获得更好的浏览体验,我们强烈建议您使用较新版本的 Chrome、 Firefox、 Safari 等,或者升级到最新版本的IE浏览器。 如果您使用的是 IE 11 或以上版本,请关闭“兼容性视图”。
Xsoup首页、文档和下载 - HTML抽取器 - 开源中国社区
全部项目分类
MIT
Java
跨平台
黄亿华
分享
收藏
51 人收藏
收录时间:2013-09-01
Xsoup 详细介绍

Xsoup是基于Jsoup开发的HTML抽取器,提供了XPath支持。

相比另一个常用的基于XPath的HTML抽取器HtmlCleaner,Xsoup有较大的性能优势,解析时间和抽取时间都只有HtmlCleaner的一半。同时Xsoup提供全面的XPath解析错误提示。

示例代码:

@Test
public void testSelect() {
	String html = "<html><div><a href='https://github.com'>github.com</a></div></html>";

	Document document = Jsoup.parse(html);

	String result = Xsoup.select(document, "//a/@href").get();
	Assert.assertEquals("https://github.com", result);

	result = Xsoup.compile("//a/@href").evaluate(document).get();
	Assert.assertEquals("https://github.com", result);
}


大家对 Xsoup 的评论 (全部 5 条评论)
{{repayCom.userName}}
sjack
干得漂亮
黄亿华
Xsoup 又加入了'|'的支持,例如"//book/title | //book/price"。0.2.0进入发布倒计时!这下子webmagic又能强大不少。 https://github.com/code4craft/xsoup/issues/6
黄亿华
Xsoup加入了XPath语法的逻辑运算符and or的支持,并可以括号指定优先级,例如://div[@class=a or class=b]。这下子webmagic又能方便不少。表达式求值用的是栈,话说终于觉得算法知识有点用了…
黄亿华
webmagic文档已更新到0.3.2版本,加入了Xsoup和类型转换机制的说明 https://github.com/code4craft/webmagic/blob/master/user-manual.md
黄亿华
闭关了两个星期,读完了jsoup源码,也读了部分HtmlCleaner源码,不得不说后者的设计(包括性能)还是稍微弱一点。基于Jsoup改了一个Xsoup,同样支持XPath,等到稳定后整合到咱的webmagic里去13
顶部