JsoupXPath v2.0-Beta 发布,HTML 解析器  

无极小子
 无极小子
发布于 2018年04月24日
收藏 13

JsoupXPath v2.0-Beta 发布了,2.0 版本是一次非常彻底的重构,基于Antlr4针对html解析完全重新实现了W3C XPATH 1.0标准语法(http://www.w3.org/TR/1999/REC-xpath-19991116 ),提供更加强大的解析和处理能力。同时优化架构使得开发者为JsoupXpath贡献函数更加方便,在自己的项目中添加自定义函数也易如反掌。JsoupXpath语法描述文件Xpath.g4

下面是JsoupXpath的基于Antlr4的语法解析树示例,方便大家更快速的一览JsoupXpath的语法处理能力与语法解析执行过程

  • //ul[@class='subject-list']/li[./div/div/span[@class='pl']/num()>(1000+90*(2*50))][last()][1]/div/h2/allText()
    这个主要是一些表达式嵌套的解析示例,点击图片可以查看大图
    muti_expr

  • //ul[@class='subject-list']/li[not(contains(self::li/div/div/span[@class='pl']//text(),'14582'))]/div/h2//text()
    这个是对内置函数支持的一个解析示例,点击图片可以查看大图
    functions

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题: JsoupXPath v2.0-Beta 发布,HTML 解析器  
加载中

最新评论(2

pantrick
pantrick
我觉得用jsoup 就直接能解析了,请问这个与jsoup解析html有啥不同
返回顶部
顶部