python 字符串问题,通过pyquery解析的网页内容里gbk被识别成了unicode

z_wang 发布于 2012/05/20 10:31
阅读 1K+
收藏 0

gbk字符串(比如'\xd0\xe9\xc4\xe2\xc6\xb1\xce\xf1')

变成了

u '\xd0\xe9\xc4\xe2\xc6\xb1\xce\xf1',

这样应该如何处理编码得到原来的内容呢?

-----------------------------------------代码如下-------------------------------------

#coding=utf-8

from pyquery import PyQuery as pyq

 

doc=pyq(url=r'http://list.taobao.com/browse/cat-0.htm')

cts=doc('.market-cat')

buff=[]

for i in cts:

print '====',pyq(i).find('h4').text() ,'===='

-------------------------------------------------------------------------------------

 

加载中
0
junanhonglei
junanhonglei
方式一:指定编码,方式二:找个返回bytes的http客户端,如requests,自己负责解码。
返回顶部
顶部