java 数据对比 百万级别

java小愤青 发布于 2016/05/19 17:58
阅读 878
收藏 0

有这么一个需求

大概有一百万篇文章 在数据库中

另外有近千万关键词 在数据库中

要实现这么一个要求 但凡在文章中 出现任何一个关键词 都要标记出来 能推荐个快速实现方式么

加载中
0
jianglibo
jianglibo
1000万关键词也就是10M个,每个关键词算10byte,也没有多少内存,直接加载到内存的set里面。对100万篇文章遍历,匹配即可。需要更快的话,用yarn群集横向分担100万。比如3台的话,每台处理33万,10台的话每台处理10万。
0
b
bigbra

要想快,先得对文章分词,然后有现成的算法。

或者结合哈希表和字典树。


0
杨少_winston
杨少_winston
solar全局搜索
返回顶部
顶部