webmagic 如何使用xpath获取 <a>的内部值

danzig 发布于 2013/10/24 12:08
阅读 6K+
收藏 0

@黄亿华 刚开始接触爬虫,请教一个简单的问题:在使用webmagic 时 page.putField("title", page.getHtml().xpath("/html/body/table[5]/tbody/tr[5]/td[1]").toString()); 获取到的信息是【<td height="33"><a href="http://www.chinabond.com.cn/jsp/include/EJB/yhxx.jsp?Banks=0001" onclick="window.open(this.href,'','scrollbars=no,width=500,height=330');return false;"> 工商银行 </a></td>】;但是实际上只想得到【工商银行】这个结果,请问xpath如何修改,谢谢!

加载中
0
黄亿华
黄亿华
/html/body/table[5]/tbody/tr[5]/td[1]/a/text()
danzig
danzig
管用,谢谢!
0
Timco
Timco

想请教一下,<div class="authi">,xpath如何获取这类div中的第一个呢?@黄亿华  谢谢

黄亿华
黄亿华
"//div[@class='authi'][1]",没测试过,不知道是不是支持这个语法....
返回顶部
顶部