问下大家实现相似度去重的方法

yifanes 发布于 2013/08/01 14:54
阅读 230
收藏 0
现有1W/day 数据,平均每条数据字符串长度维持在150汉字左右,目测1/10重复,但是坑爹的是重复的不完美,需要去重,大家给个思路,php有similar_text()和levenshtein()但我觉得不必局限,大家有其他语言实现的比较好的算法也可以,打算后台cron
加载中
0
中山野鬼
中山野鬼
没看懂问题。。。
0
Anterior
Anterior
布隆过滤器
返回顶部
顶部