8
回答
大段文本用什么计算其相似度比较好?
终于搞明白,存储TCO原来是这样算的>>>   
如题,目前数据库里存了大量网页爬的文本数据,大约500万条新闻类的数据吧,发现有一些重复的,目前有什么好的方法去重么?
<无标签>
举报
HZ先生
发帖于4年前 8回/358阅
顶部