java.text.Collator 类的具体使用方法

红薯 发布于 2011/03/29 07:47
阅读 2K+
收藏 11

Collator 用来简化我们处理各种语言之间的差别性。Collator 主要处理:

  • 规范化的典型等效 字符
  • 多层次的比较

通过比较字符串 Unicode 字节的 code point 来进行Java字符串的比较。这将意味着在Unicode代码图表字符位置指定的排序权重,但事实并非如此。语言可能有完全相同的字符而不同的排序权重。

例如,你完全不懂德语,你可能希望 ß (\u00DF) 被当作 b 或者 B 来进行排序,但事实上是 ss,在该语言中 ß 的排序值高于正常的 s。

而多层次的比较指的是提供4种比较级别:基本字符、口音、case、标点符号。

需要注意的是 Collator 不支持标点符号。

来看看一些具体的关于多层次比较例子的代码:

System.out.println("a equals b -> " + (collator.compare("a", "b")==0 ? "true":"false"));
System.out.println("a equals à -> " + (collator.compare("a", "à")==0 ? "true":"false"));
System.out.println("A equals a -> " + (collator.compare("a", "A")==0 ? "true":"false"));

 

当 collator.setStrength(Collator.PRIMARY):

a equals b -> false
a equals à -> true
A equals a -> true

当 collator.setStrength(Collator.SECONDARY):

a equals b -> false
a equals à -> false
A equals a -> true

当 collator.setStrength(Collator.TERTIARY):

a equals b -> false
a equals à -> false
A equals a -> false

还有下面这段代码,尽管第一行输出的是 false ,但是他们看起来确实完全相同的字符串:

collator.setDecomposition(Collator.CANONICAL_DECOMPOSITION);
String single = "abgaskr\u00FCmmerdichtung";
String combined = "abgaskr\u0075\u0308mmerdichtung";

System.out.println("Single equals combined? " + 
    (collator.compare(single, combined) == 0 ? "true": "false"));

等等,种子 Collator 类理解起来挺费劲,但当你需要处理各种不同语言时,你还真离不开它。

你可以从这里查看 Collator 类的 JavaDoc 文档。

加载中
0
子木007
子木007
又挖到一篇有用的老帖子。  话说  Collator 类用的真是少,今儿第一次碰到 ,给中文排序不错
0
铂金小狼
铂金小狼
也是为了中文排序...
返回顶部
顶部