1
回答
scrapy 爬虫爬到<p>标签里面包含<strong>标签,怎么解决?
科大讯飞通用文字识别100000次/天免费使用。立即申请   

用scrapy 写爬虫时爬到<p>标签里面包含<strong>标签,<strong>标签 里面还有内容,我想把<p>里面的内容部分全都爬下来,需要怎么办?

<p>Seorang usahawan yang mahu dikenali sebagai Linda kesal dengan sikap lepas tangan pelakon popular <strong>Fizz Fairuz</strong> kerana gagal membayar semula wang berjumlah RM15,000 yang dipinjam pada Oktober tahun lalu. </p>

之前是写的xpath语句是这样xpath("//p/text()").extract(),但是结果就不包含strong标签里面的文字,求指点~~

举报
太阳底下
发帖于4年前 1回/2K+阅
共有1个答案 最后回答: 4年前

你是需要所有<p>标签下的内容吗?如果是这样的话你需要这样写 xpath('//p/descendant::text()')

如果你只需要<p>或者<strong>下的内容。你可以这样写xpath('//p/text()|//p/strong/text()')

--- 共有 3 条评论 ---
太阳底下回复 @黑白IV记忆 : 多谢啦~~! 4年前 回复
黑白IV记忆u'\u2013'这个就是-,scrapy会自动帮你把网页内容转换成unicode编码。你要需要按原格式输出,再自己转化一下就可以了。 4年前 回复
太阳底下非常感谢,包括了我没想到的情况呢~还有个问题,就是有些字符通过scrapy shell 输出的是一些数字,比如“–”符号,得到的就是 \u2013,这是unicode的编码吗?不能按照原格式输出吗? 4年前 回复
顶部