xsoup的xpath抽取数据问题

Neoman 发布于 2013/10/17 20:02
阅读 769
收藏 0

@黄亿华 你好,想跟你请教个问题:

xpath 抽取数据时,发现很多网站xpath不稳定(是否有数据都影响xpath结构)。这个让我很郁闷。

 我思考应该可以在两个方向研究一下:
1、对抓取到的html进行清洗(比如,删除一些结构,注入id等等),使xpath稳定
2、利用xpath的高级语法(这个只是猜想,还不确定)

是否有啥建议啊?谢谢了~~~

加载中
0
黄亿华
黄亿华

首先,我觉得页面结构变化导致xpath失效,这是避免不了的问题,也想不到通用的方法。

对于具体的场景,可能会有一些解决方案,比如站点结构未变但是数据变化导致的xpath不可用,就像你说的,可以提前清洗某些元素,乃至于xpath的谓词计算等。这种情况能否提供一些例子?这样子比较好分析一点。

ldkk
ldkk
回复 @Neoman :今天也遇到not parse query 这个问题了,怎么解决的啊,真心求助
Neoman
Neoman
xsoup是否支持所有的xpath语法?
返回顶部
顶部