sea
2012-11-01 10:27

引用来自“sea”的评论

想请教一下,怎么取两个字符串之前的字符,比如
"<h1></h1><div><span>这是内<a href="">容文</a>本信息</span><span class="not"><h1>这是信息</h1></span></div>"

比如想取<span class="not"><h1> 和</h1></span>之间的信息,不要用
doc.getElementsByClass 然后再 getElementsByTag 来取,因为我提供的开始字符作为参数来传递,不可预知的

怎么取两个字符串之前的字符---》怎么取两个字符串之间的字符
sea
2012-11-01 10:26
想请教一下,怎么取两个字符串之前的字符,比如
"<h1></h1><div><span>这是内<a href="">容文</a>本信息</span><span class="not"><h1>这是信息</h1></span></div>"

比如想取<span class="not"><h1> 和</h1></span>之间的信息,不要用
doc.getElementsByClass 然后再 getElementsByTag 来取,因为我提供的开始字符作为参数来传递,不可预知的
2012-09-26 14:50
解析一个一般的html文件
测试输出:

Jsoup use time:250 ms
Jodd use time:125 ms
还有就是复杂的html,jsoup会死掉的.那个文件的地址是:https://dl.dropbox.com/u/77543017/stuck.html
2012-09-25 10:03

引用来自“gdp8”的评论

引用来自“白石”的评论

强烈建议"比较一下Jodd-Wot的Jerry吧:http://jodd.org/doc/jerry/index.html
比jsoup以及htmlparse要棒多了,我也是进行多方综合测试以后选择的Jodd-wot

请问jerry可以做clean吗?即清除用户post的html中指定危险标签。

当然可以了,jerry不光能处理html,也可以处理XML,类似jQuery的select语法比用XPath等强多了,速度也奇快.
2012-09-24 17:25
强烈建议"比较一下Jodd-Wot的Jerry吧:http://jodd.org/doc/jerry/index.html
比jsoup以及htmlparse要棒多了,我也是进行多方综合测试以后选择的Jodd-wot
2012-09-24 17:04
jsoup确实很不错,用起来相当方便
2012-09-24 14:13
果断升级
2012-09-24 14:06
毫不犹豫的升级。。
2012-09-24 14:05
用过 htmlparse
http://htmlparser.sourceforge.net
2012-09-24 14:02
jsoup,非常喜欢。
2012-09-24 14:02
给力兮
2012-09-24 13:22
是不是加了这么快啊
2012-09-24 12:37

引用来自“长江北”的评论

跟htmlcleaner相比,有什么优势!

只知道osc也是用这个....
2012-09-24 12:31
跟htmlcleaner相比,有什么优势!
2012-09-24 12:03
好的 性能提升 这个很好! 之前的真的有点低!
2012-09-24 12:01

引用来自“君无畏”的评论

果断升级

++
2012-09-24 12:00
果断升级
回复 @
{{emojiItem.symbol}}
返回顶部
顶部