mmseg4j的simple与complex分词效果一样

tianpeng91 发布于 2014/06/19 10:34
阅读 1K+
收藏 1

最近的项目中用到了solr4.7,因IK不支持4.7,并且之前觉得mmseg4j还不错,就选择了mmseg4j,但是遇到一个奇怪的问题。感觉simple和comple效果一样,我理解的simple不应该是尽量分更多的词,只要词库中存在就分吗?

比如:计算机科学与技术

simple(我认为的):计算机  科学  技术  计算机科学 计算机科学与技术

complex:计算机科学与技术

但实际上simple和complex一样,感觉有点奇怪,是我理解错了?还是用错了?还是有BUG呢?

加载中
0
chenlb
chenlb
simple 是正向最大匹配
tianpeng91
tianpeng91
明白了,还有一个问题,你的max-word实现不好,为啥不按IK的那样呢?尽量分出更多的词,只要在词典中存在的,因为实际上,有很多应用场景的,比如,我索引需要max-word,但查询需要complex
0
lxm9
lxm9
complex模式下“哈尔滨市” 不会分词,不应该分出‘哈尔滨’和‘哈尔滨市’吗?在max-word模式下会分成‘哈’,‘尔’,‘滨’,‘市’
返回顶部
顶部