大段文本用什么计算其相似度比较好?

HZ先生 发布于 2013/06/03 12:06
阅读 369
收藏 2
如题,目前数据库里存了大量网页爬的文本数据,大约500万条新闻类的数据吧,发现有一些重复的,目前有什么好的方法去重么?
加载中
0
桔子
桔子

弄个关键字表,然后统计每个文章中这些关键词的分布


或者把文章专成声音,声音的波谱图



1
dake
dake

可以对关键词用编辑距离算法..

http://www.cnblogs.com/grenet/category/287355.html

0
中山野鬼
中山野鬼

引用来自“桔子”的答案

弄个关键字表,然后统计每个文章中这些关键词的分布


或者把文章专成声音,声音的波谱图



哇噻,转成声音是不是有点过了。哈。直接对内码做相应的处理,我觉得也行啊。音频分析里的一些算法,也可以用。关键词表是靠谱的。
0
kiwivip
kiwivip
转成声音这个思路很赞呀~
0
jingshishengxu
jingshishengxu
用声音、图像里的分析算法当然好,但关键是怎么转,这个数学模型怎么建立?
jingshishengxu
jingshishengxu
还是用高维向量,然后用一些分类算法,比如聚类,SVM,NN等比较成熟一些
0
l
lovelin
余弦定理 , TF/IDF 
0
HZ先生
HZ先生

引用来自“桔子”的答案

弄个关键字表,然后统计每个文章中这些关键词的分布


或者把文章专成声音,声音的波谱图



关键字靠谱点


0
A
AQMAN

我也是覺得關鍵字比較靠譜


返回顶部
顶部