目前有五十万个关键字词库,如何在不使用全文检索引擎的情况下,将文章中的关键字进行标记

AlanVision 发布于 2017/03/06 10:17
阅读 496
收藏 0

目前有五十万个关键字的词库,如何在不使用全文检索引擎的情况下,将文章中与词库相匹配的关键字进行标记?

加载中
1
jianglibo
jianglibo

不要考虑这么复杂,用0-50w的循环将每篇文章正则匹配一下即可。先用代码实现,看看时间的可接受程度。如果不可接受,再考虑其它。

如果是存量文章,匹配一次即可,那时间长一点(几天)也没关系,如果是动态输入,或者实时匹配可以考虑群集。

0
mickelfeng
mickelfeng

文章中关键词存id,例如: 1,2,3

 

AlanVision
AlanVision
现在是不知道文章中有关键字,需要根据词库进行匹配,然后标记出来
0
寂寞与子
寂寞与子
咦 我的回答哪去了 时间不急的话 上ik分词器 词库换成你的 然后对文章进行分词 命中时你标记下
寂寞与子
寂寞与子
只上个分词器都不行? 不需要lucece啊
AlanVision
AlanVision
不允许用全文检索。。。
0
金拱门
金拱门

你关键词词库是否有绑定对应的文章ID。如果有,那么直接搜索关键词词库。

业务代码对搜索内容进行简单的分词。再搜索 关键词库去 获取对应文章。

金拱门
金拱门
回复 @Mr_Vision : 如果本身没有关联的话,不借助第三方的插件,你只能数据库现成的全文搜索来实现。不过50W,搜索速度估计1S多了。 或者你自己做一个初始化工具,把关键词库与库中的文章进行关联。
AlanVision
AlanVision
文章和词库是完全独立的,比如说现在有词汇:“OSC”,“开源中国”,“和谐社会”。文章是:“我来自开源中国,我自豪,我骄傲”。那么现在的输出结果则需要把文章中“开源中国”标记出来。现在的词库是50万,在不用全文检索的情况下怎么才能快速的匹配到词库。
0
zzuqiang
zzuqiang
楼上方案可行
0
_
_Tench_

小白弱弱的问一句。。。都不知道原文章是什么(不遍历文章,文章和关键字没有关联),还要找这个文章的关键字,这样都能做到呀。。。什么时候科技发展成算卦了><..

0
墨染枕边书
墨染枕边书

trie树,效率很高的。三秒一篇文章,你值得拥有。

返回顶部
顶部