python 中文编码的一个问题

ArcJson 发布于 2013/04/01 23:54
阅读 337
收藏 1
我在抓取网站内容的时候遇到了像 这样的编码,虽然知道是utf-8,但是python并不能打印出来具体的字,有什么办法能转换成python识别的\u0020这样子的? 或者说我知道一个汉字的utf-8 是 0020 有什么技巧能在python中直接打印出来汉字。
加载中
0
crifan
crifan

1.像:

 

其实是叫做 Html Entiry,HTML实体

2.Python有专门处理Html Entity的相关的库:

htmlentitydefs

可以直接用来处理,类似于:

 

>

等形式的Html entity。

3.我之前还专门写了,相关的库函数,用于更加方便的处理这方面的内容。

比如

htmlEntityNameToCodepoint

decodeHtmlEntity

htmlEntityCodepointToName

具体代码在:

http://code.google.com/p/crifanlib/source/browse/trunk/python/crifanLib.py

中。

ArcJson
ArcJson
受教了,我再仔细看看。
0
王阿觉
王阿觉

我也遇到过,你可以试试用

#coding
zhong_wen="你好"
print result.decode('utf8')

0
xtrace
xtrace

eval("u" + "'" + v.encode('utf-8') + "'").strip()
用eval

返回顶部
顶部