关于一段html中文本内容的获取

la_lala 发布于 2017/02/26 16:50
阅读 1K+
收藏 0

如图。

想获取这段文本,但是用xpath('//*[@id="postmessage_31403961"]')的话会漏掉被<a>标签包裹的那两个词语。如果是获取所有文本的话又会包含那堆script的内容。有没有一种直接获取文本的xpath或css写法。

html:

<td class="t_f" id="postmessage_31403961">
<div class="a_pr" style="margin-left:10px;width:auto"><!-- 广告位:BBS论坛-1楼右侧banner300*250 -->
<script>
(function() {
    var s = "_" + Math.random().toString(36).slice(2);
    document.write('<div id="' + s + '"></div>');
    (window.slotbydup=window.slotbydup || []).push({
        id: '2995227',
        container: s,
        size: '300,250',
        display: 'inlay-fix'
    });
})();
</script><div id="_3xx663xxa4en19t0j40qhyqfr"><iframe id="iframe2995227_0" onload="BAIDU_SSP_renderFrame('2995227_0', this);" src="about:blank" width="300" height="250" align="center,center" vspace="0" hspace="0" marginwidth="0" marginheight="0" scrolling="no" frameborder="0" style="border:0; vertical-align:bottom;margin:0;" allowtransparency="true"></iframe></div><script charset="utf-8" src="http://pos.baidu.com/mcbm?di=2995227&amp;dri=0&amp;dis=0&amp;dai=18&amp;ps=579x939&amp;dcb=___adblockplus&amp;dtm=SSP_JSONP&amp;dvi=0.0&amp;dci=-1&amp;dpt=none&amp;tsr=0&amp;tpr=1488093016704&amp;ti=%E9%92%B1%E7%AB%99%EF%BC%9F%E9%92%B1%E7%AB%99%EF%BC%9F%20-%20%E4%BF%A1%E7%94%A8%E8%B4%B7%E6%AC%BE%20-%20%E4%BF%A1%E7%94%A8%E5%8D%A1%E8%AE%BA%E5%9D%9B-%E6%88%91%E7%88%B1%E5%8D%A1%E4%BC%9A%E5%91%98%E7%A4%BE%E5%8C%BA-%E4%B8%AD%E5%9B%BD%E6%9B%B4%E5%A4%A7%E6%9B%B4%E6%9D%83%E5%A8%81%E7%9A%84%E4%BF%A1%E7%94%A8%E5%8D%A1%E8%AE%BA%E5%9D%9B&amp;ari=2&amp;dbv=2&amp;drs=1&amp;pcs=893x957&amp;pss=1000x920&amp;cfv=0&amp;cpl=5&amp;chi=1&amp;cce=true&amp;cec=GBK&amp;tlm=1488093017&amp;rw=910&amp;ltu=http%3A%2F%2Fbbs.51credit.com%2Fthread-2895972-1-1.html&amp;ltr=http%3A%2F%2Fso.51credit.com%2Fcse%2Fsearch%3Fq%3D%25E9%2592%25B1%25E7%25AB%2599%26p%3D0%26s%3D12455798804538985593%26srt%3Ddef%26nsid%3D1&amp;ecd=1&amp;par=1920x1040&amp;pis=-1x-1&amp;ccd=24&amp;cja=false&amp;cmi=7&amp;col=zh-CN&amp;cdo=-1&amp;sr=1920x1080&amp;tcn=1488093018"></script></div>垃圾的网贷公司,开始有<a href="http://www.51credit.com/zonghe/edu/" target="_blank" class="relatedlink">额度</a>53000,两次<a href="http://cc.51credit.com/" target="_blank" class="relatedlink">申请</a>都不过,额度秒变0,满满的套路啊!艹垃圾的网贷公司,开始有</td>

 

加载中
0
宇润
宇润

可以把标签一起获取过来,最后把标签过滤掉……不知道你什么语言就不贴代码了

返回顶部
顶部