用htmlparser提取html文件中的所有正文信息

神剑戎 发布于 2013/04/28 09:36
阅读 1K+
收藏 0

@hebeijpp 你好,想跟你请教个问题:

您好请问下,用htmlparser提取正文您是怎么搞定的,我用stringBean但是很多script标签删不掉,尤其是当script标签里面包含其他标签代码的时候,求助啊~~

下面这段是我测试时一直删除不成功的一个例子,<script>XXX</script> 之间的内容无法删除

<script>
      (function(){
        /**
         * @description get a Max length for text, cut the long words
         * @author zemzheng
         **/
        var 
          _dom   = jQuery('.text'),
          _html0 = _dom.html();
          _em    = jQuery('<p></p>').html('a').css({display:'inline'}),
          _init  = function(){
            _em.appendTo(_dom);
            var 
              _html = _html0,
              _max  = Math.floor( _dom.width() / _em.width() ),
              _reg  = new RegExp('[a-z1-9]{' + _max + ',}', 'ig');
            _em.remove();

            _html = _html.replace(/>[^<]+</g,function(txt){
              return txt.replace(_reg, function(str){
                var _str = str, result = []
                while(_str.length > _max){
                  result.push(
                    _str.substr(0, _max)
                  );
                  _str = _str.substr(_max);
                }
                result.push(_str);
                return result.join('<br/>');
              });
            });

            _dom.html(_html);
            //console.log(_dom.html());
          };
        jQuery(window).on('resize', _init).trigger('resize');
        
      })();
</script>

加载中
0
神剑戎
神剑戎

引用来自“郭幻程”的答案

用jsoup

好吧,我也论坛里看了不止一个前辈这么说了,只能转Jsoup啦,多谢~~、

返回顶部
顶部