Xsoup 0.2.0 发布,HTML 抽取器

黄亿华
 黄亿华
发布于 2014年03月11日
收藏 53

Xsoup 是一款基于 Jsoup 开发的,使用XPath抽取Html元素的工具。它被用于作者的爬虫框架 WebMagic 中,进行XPath 解析和抽取。

此次更新主要增加了一些XPath语法的支持。

  1. 增加contains支持 #2

    //div[contains(@id,'test')]
  2. 增加筛选条件的逻辑运算支持(and/or) #4

    //div[@id='test' or @class='test']
    //div[@id='test' and @class='test']
    //div[@id='test' and @class='test' or @id='test1']
    //div[@id='test' and (@class='test' or @id='test1')]
  3. 增加整个XPath的或支持 #6

    //div[@id='test']/text() | //div[@class='test']/div/text()

此次升级与Xsoup 0.1.0 API兼容,WebMagic 0.3.0以上的用户可以直接在项目添加依赖即可使用新语法。

<dependency>
  <groupId>us.codecraft</groupId>
  <artifactId>xsoup</artifactId>
  <version>0.2.0</version>
</dependency>
本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:Xsoup 0.2.0 发布,HTML 抽取器
加载中

最新评论(4

d
duoling
dddd
黄亿华
黄亿华

引用来自“dij”的评论

jsoup提取w3c dom对象再以通用xpath类解析也不错

jsoup默认不支持转换到w3c dom,你是自己写的扩展?
dij
dij
jsoup提取w3c dom对象再以通用xpath类解析也不错
返回顶部
顶部