对文件读写时,出现的中文乱码(或者说是无意义语句)的识别

千万不要郁闷 发布于 2016/05/18 09:04
阅读 131
收藏 0

文件读写的时候,出现形如“鍗楁棆鎺ц偂寮 姤1.32鍏 楂树笂甯备环10% 銆  鍗楁棆鎺ц偂锛”、“懆浜斿憿鏄 富锷涢槾闄╃殑鐜╀竴鎶婏纴涓嶈Е纰”这样的问题,这个用字符来判断不是乱码,但是人一眼看就能识别出其实还是乱码,请问这种怎么识别,谢谢。

加载中
0
南湖船老大
南湖船老大

别闹。。。这还能有啥疑问的。。

你会大量使用“ 鍗楁棆鎺ц偂寮 姤” 这些文字吗?显然不会!那么每个文字都对应有一个编码,判断如果编码在这个区间,那不就是乱码了么。只要有5%的汉字在这个编码区间,那肯定是乱码。而且这些字都是在一个连续区间的

问题又来了,我怎么知道这些字符的编码?这就更不是问题了.查表啊 http://unicode.org/

0
南湖船老大
南湖船老大

通常,这些乱码一般都集中在 CJK Unified Ideographs Extension 区域。

什么是CJK,什么是扩展区域,你一查就知道了

返回顶部
顶部