java 中文相似度(或距离)的计算方法

老骥伏枥-志在千里 发布于 2013/07/31 16:13
阅读 1K+
收藏 0
目前小弟遇到一个问题:比如有很多居民的基本信息从很多渠道传过来,身份证相同,但是姓名并不能完全匹配,对于 同音(比如:“依”与“伊”)或者 形似(比如:“已”与“己”)的数据不能丢弃,请问用怎么计算相似度?
加载中
0
huan
huan
根据拼音或者笔画排序,距离相近的认为一致性较高
0
moyiguke
moyiguke

身份确认以身份证号码为准。以身份证号码作为关联,并不会丢失数据。把身份证相同,姓名不同的存在表里也是可以的,用逗号之类的隔开。

中文计算相似度是很复杂的。有点类似输入法,拼音输入、 五笔输入。我觉得没有开发必要。





返回顶部
顶部