simhash算法库 simhash

MIT
C/C++
Linux
2014-12-13
吴延毅

专门针对中文文档的simhash算法库

简介

此项目用来对中文文档计算出对应的 simhash 值。 simhash 是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。

详见SimhashBlog

特性

  • 使用 CppJieba 作为分词器和关键词抽取器

  • 使用 jenkins 作为 hash 函数

  • hpp 风格,所有源码都是 .hpp 文件里面,方便使用。 没有链接,就没有伤害。

依赖

  • g++ (version >= 4.1 recommended), or clang++ .

用法

mkdir build cd build
cmake ..
make

演示

./bin/simhash.demo

结果如下:

文本:"我是蓝翔技工拖拉机学院手扶拖拉机专业的。不用多久,我就会升职加薪,当上总经理,出任CEO,走上人生巅峰。"
关键词序列是: ["蓝翔:11.7392", "CEO:11.7392", "升职:10.8562", "加薪:10.6426", "手扶拖拉机:10.0089"]
simhash值是: 17831459094038722629
100010110110和110001110011 simhash值的相等判断如下:
海明距离阈值默认设置为3,则isEqual结果为:0
海明距离阈值默认设置为5,则isEqual结果为:1

详情请看 src/main.cpp

客服

i@yanyiwu.com

加载中

评论(0)

暂无评论

暂无资讯

2
回答
关于文档去重算法的问题,百度去重算法和simhash

最近看了看文档去重算法,google用的是simhash,看到这么一句话 百度的去重算法最简单,就是直接找出此文章的最长的n句话,做一遍hash签名。n一...

2016/04/28 13:15

没有更多内容

加载失败,请刷新页面

没有更多内容

介绍一个基于simhash作海量文章排重的库:simhashpy

海量文章排重的具体实践方法,主要是介绍在工程当中如何使用。

2013/12/17 09:08
6.9K
0
simhash算法原理及实现

simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字...

2016/12/09 17:06
31
0
simHash、minHash、LSH、海量数据相似度、Redis百亿级Key存储、 Sentinel+ShardedJedis

simHash、minHash、LSH、海量数据相似度、Redis百亿级Key存储

2016/09/21 20:41
1K
1
simhash算法实现--查找文件相似度

一、Simhash简介 SimHash是用来网页去重最常用的hash方法,速度很快。Google采用这种算法来解决万亿级别的网页去重任务。 SimHash算法的主要思想是降维。将高维的特征向量映射成一个低维的特...

2014/08/18 09:07
4.9K
1
海量数据相似度计算之simhash短文本查找

在前一篇文章 《海量数据相似度计算之simhash和海明距离》 介绍了simhash的原理,大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增,如果一天100w,10天就1000w了。我...

2013/09/09 07:34
587
0
simhash的原理和php实现

1 simhash的原理,比较详细的参考链接:http://my.oschina.net/leejun2005/blog/150086 2 simhash的php实现(如下)。主要用到了php的类库gmp 3 ps:oshchina代码编辑器真心难用,大家将就一...

2013/11/16 22:42
2.6K
3
相似文档查找算法之 simHash 简介及其 java 实现

传统的 hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概 率 下是相等的;如果不相等,除了说明原...

2013/08/05 02:22
15.5K
8
海量数据相似度计算实例 simhash和海明距离

simHash是用来网页去重最常用的hash方法,速度很快。海明距离是在信息编码中,两个合法代码对应位上编码不同的位数称为码距。 通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数...

2015/12/24 14:12
123
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部