支持 Lucene 5.5 的中文分词有哪些?

AkataMoKa 发布于 2016/02/29 16:47
阅读 459
收藏 0

我看 mmseg4j 和 IKAnalyzer 都没有更新了

Lucene 自带的 smartcn,它会把不认识的词都分成一个一个的字

比如:“昭觉寺” 和 “长谷寺”
会分解成:“昭”“觉”“寺” , “长”“谷”“寺”

所以导致我搜索“昭觉寺”

“长谷寺” 也会出现在搜索结果里面

请问有什么办法改进一下吗?

加载中
0
加加0
加加0
IK 有人写了个支持类:http://www.oschina.net/code/snippet_97202_48660
0
北风刮的不认真了
北风刮的不认真了
添加中文的分词库
0
AkataMoKa
AkataMoKa

引用来自“北风刮的不认真了”的评论

添加中文的分词库

我看smartcn对自定义分词库支持不好。。。
有点郁闷

0
AkataMoKa
AkataMoKa

感谢二位的回答

这个我自己添加了词库就可以了

返回顶部
顶部