scrapy 爬虫爬到<p>标签里面包含<strong>标签,怎么解决?

太阳底下 发布于 2014/07/30 13:22
阅读 3K+
收藏 0

用scrapy 写爬虫时爬到<p>标签里面包含<strong>标签,<strong>标签 里面还有内容,我想把<p>里面的内容部分全都爬下来,需要怎么办?

<p>Seorang usahawan yang mahu dikenali sebagai Linda kesal dengan sikap lepas tangan pelakon popular <strong>Fizz Fairuz</strong> kerana gagal membayar semula wang berjumlah RM15,000 yang dipinjam pada Oktober tahun lalu. </p>

之前是写的xpath语句是这样xpath("//p/text()").extract(),但是结果就不包含strong标签里面的文字,求指点~~

加载中
0
黑白IV记忆

你是需要所有<p>标签下的内容吗?如果是这样的话你需要这样写 xpath('//p/descendant::text()')

如果你只需要<p>或者<strong>下的内容。你可以这样写xpath('//p/text()|//p/strong/text()')

太阳底下
回复 @黑白IV记忆 : 多谢啦~~!
黑白IV记忆
u'\u2013'这个就是-,scrapy会自动帮你把网页内容转换成unicode编码。你要需要按原格式输出,再自己转化一下就可以了。
太阳底下
非常感谢,包括了我没想到的情况呢~还有个问题,就是有些字符通过scrapy shell 输出的是一些数字,比如“–”符号,得到的就是 \u2013,这是unicode的编码吗?不能按照原格式输出吗?
返回顶部
顶部