Window文本拷贝到linux乱码问题

整理秀逗的脑袋 发布于 2014/01/10 17:46
阅读 1K+
收藏 0

【华为云1024程序员节·向云而生】预约直播 抽14件华为电子产品礼包!>>>

这是个棘手的问题。

今天把一个充满各种符文(全角和半角的英文\汉字,偏旁部首等)的文本从windows传到linux,发现是除了半角字母和标点,其他的都是乱码。

我就查资料啊

学习了一下字符编码跟字符集。着重看了一下GBK相关的编码。最终发现GB18030编码的字符范围最大。就用了iconv这个命令解码。

iconv -f GB18030 -t utf-8 input -o output

不出意外,用GB18030能够到解码的数据最多,跟cp936差不多,GBK和GB2312只能解出很少一部分。

但是问题是,用GB18030这种编码方式还是不能全部解码。

有这方面经验的不?

加载中
0
SteveKou
SteveKou
CentOS里的gedit是可以直接解出gbk编码的文本的。
整理秀逗的脑袋
整理秀逗的脑袋
用gedit打开报错了gedit:2001): Gtk-WARNING **: cannot open display: 我不光要打开,我还得把这些数据存数据库呢,所以这个编码最好是UTF8
0
vinge_ven
vinge_ven

就我所知,linux支持文字编码转换最好的是qt creator的编辑器。

你这情况为嘛不先在window转成utf8呢。

返回顶部
顶部