能用java相关技术解析Html页面,批量获取页面内容对应的xpath吗?

MarchYang 发布于 2014/07/09 15:18
阅读 1K+
收藏 2

1、能否根据URL或html文件抓取当前html页面所有可显示或可操作的元素及对应的xpath,像firebug一样,而且能批量获取?

2、目前有能解决这种问题的第三方工具包吗?

以下是问题补充:

@MarchYang:我用jsoup解析指定的URL的页面,控制台里反馈的信息如下: JavaScript is required to access this website. Please enable JavaScript or use a browser that supports JavaScript. 注:该页面html版本为 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"> 但我解析百度、新浪首页都能得到文本内容,难道这样页面就没有javascript请求吗? (2014/07/10 14:35)
加载中
0
len
len
好像不能获取 xpath,但解析没有问题。htmlparser
Cobbage
Cobbage
前段时间简单用了下 多层嵌套定位 不行(例如能够像jquery那样定位到)。解析内容分的感觉挺细的
MarchYang
MarchYang
HtmlParser我看了一下,比jsoup麻烦,不知道功能怎么样
0
泥瓦匠BYSocket
泥瓦匠BYSocket
http://www.cnblogs.com/Alandre/p/3215272.html
MarchYang
MarchYang
好的,我先了解一下,谢谢!
0
zhaosan
zhaosan
Jsoup 能满足你的要求吧。
MarchYang
MarchYang
恩 我先看看API,谢谢
0
唐代de豆腐
唐代de豆腐
先用httpclient把网页抓下来,然后用jsoup去解析它。屡试不爽的,推荐滴
MarchYang
MarchYang
使用httpclient得到的html源码,跟鼠标右键查看源码是一样的,没有一些可用的信息,不知道firebug是怎么得到html源码的?
0
len
len

引用来自“len”的评论

好像不能获取 xpath,但解析没有问题。htmlparser
其实也是行的,获取到节点后递归父节点
返回顶部
顶部