怎么快速对比两篇文章的相似度

安西都护府首席程序员 发布于 2017/08/31 14:46
阅读 1K+
收藏 1

我现在要做一个论文相似检测系统,我知道对比两篇文章有个tf-idf算法。我自己试了下 对比几百几千还是很快,但是如果论文库有几千万几亿篇那要算好几天了。

这个有没有什么比较好的解决方案?

加载中
1
huan
huan

simhash

huan
huan
回复 @安西都护府首席程序员 : 对长文本的相似度匹配准确率不错
安西都护府首席程序员
安西都护府首席程序员
据说google就是用这个每天去重网页的,用来比较论文精度如何?
0
foy
foy

感觉本质是如何提取论文内容,做相识度算法,这个不懂了。

等自然语言处理高手来

0
S_U_D
S_U_D

集群么,算法可以参考 知网的算法么

0
北极心
北极心

感觉算法确定好了,接下来就是提高速度了,那么多文章,要分任务啊,估计一两台电脑短时间在怎么也跑不完啊,集群分任务吧!

0
沙枣
沙枣

初始化这个系统,需要的计算量是巨大的,即使是单纯的读文件,也要很久。因为要逐个对比。

如果有两篇,就对比一次,如果有三篇,就对比3次,依次类推,n 篇需要 n! (阶乘) 次对比。那么1000 篇呢?10000 篇呢?所以单纯用算法考虑问题,这个问题无解。

要换个方向考虑问题,如果使用一些大家都认可的办法缩减这种算法呢?

举例:对于公认的作者提交的论文,不再进行对比,彼此也不会进行相互对比。

又比如,对于同一个作者提交的论文,不进行彼此对比。

反正就用这些学术界论文处理通用的原则,把算法修改为可行。

0
乌龟壳
乌龟壳

没有完全做过和题主相同的东西,但有过类似的,看看思路怎样。

  1. 每个文章分词统计词频,最高的20%入数据库索引
  2. 通过遍历所有文章,通过索引找到比较近似的,其实只是高词频的相同而已不够精确
  3. 用你当前做的比较算法对通过索引匹配的文章再进行精确的二次筛选
0
张亦俊
张亦俊

搭个集群跑

0
runningx
runningx

吴军不是说用余弦定理

0
安西都护府首席程序员
安西都护府首席程序员

那么 我求一个 simhash的java实现,网上很多代码都不行,准确率太低了

返回顶部
顶部