11
回答
怎么快速对比两篇文章的相似度
滴滴云服务器,限时包月0.9元,为开发者而生>>>   

我现在要做一个论文相似检测系统,我知道对比两篇文章有个tf-idf算法。我自己试了下 对比几百几千还是很快,但是如果论文库有几千万几亿篇那要算好几天了。

这个有没有什么比较好的解决方案?

<无标签>
举报
共有11个答案 最后回答: 2周前

感觉算法确定好了,接下来就是提高速度了,那么多文章,要分任务啊,估计一两台电脑短时间在怎么也跑不完啊,集群分任务吧!

初始化这个系统,需要的计算量是巨大的,即使是单纯的读文件,也要很久。因为要逐个对比。

如果有两篇,就对比一次,如果有三篇,就对比3次,依次类推,n 篇需要 n! (阶乘) 次对比。那么1000 篇呢?10000 篇呢?所以单纯用算法考虑问题,这个问题无解。

要换个方向考虑问题,如果使用一些大家都认可的办法缩减这种算法呢?

举例:对于公认的作者提交的论文,不再进行对比,彼此也不会进行相互对比。

又比如,对于同一个作者提交的论文,不进行彼此对比。

反正就用这些学术界论文处理通用的原则,把算法修改为可行。

没有完全做过和题主相同的东西,但有过类似的,看看思路怎样。

  1. 每个文章分词统计词频,最高的20%入数据库索引
  2. 通过遍历所有文章,通过索引找到比较近似的,其实只是高词频的相同而已不够精确
  3. 用你当前做的比较算法对通过索引匹配的文章再进行精确的二次筛选
顶部