如何高效的对文章进行词标注

whitink 发布于 2014/08/06 12:02
阅读 587
收藏 0

目前数据库里有一个几百篇包含大量文字的文章的表,还有一个包含几千个词条的表。需要把每一篇文章中包含词表中的词用特殊颜色标注出来。

目前的做法是循环遍历词条表,并在文章中查找并替换,效率很低,每次打开都要10s左右。

有什么办法能高效的处理,最近看了下lucene,不知能不能高效的完成这个功能。

加载中
0
Cobbage
Cobbage

高亮显示关键词部分 具体忘了

肯定比这个快,那个是提前做过分词的,然后处理的

w
whitink
我是用替换的方法来高亮显示的,影响性能主要就是在循环查找和替换这里。
0
IdleMan
IdleMan
提前做好,空间换时间
w
whitink
是个办法
0
littleant
littleant
直接用Lucene,把你的词加入扩展词库,比如说IK的词库都是30万,你这才几千, 肯定没问题
littleant
littleant
回复 @whitink : 我最近在弄个项目在用,光词典都有160万,你这才多大点数据,应该没问题
w
whitink
只是最近才查到lucene,还没具体研究怎么应用,这种情况可以用是吧
返回顶部
顶部