lucene StandardAnalyzer

yimi 发布于 2016/11/03 17:25
阅读 70
收藏 0

lucene 版本5.2.1

在使用lucene StandardAnalyzer(标准分词器)针对生物文本进行分词索引的时候,”Lucene-PMC“像这样的词汇会被拆分为:

1:[Lucene]:(0-->6):<ALPHANUM>

2:[PMC]:(7-->10):<ALPHANUM>

英文标准分词器(StandardAnalyzer )继承了 停用词分词器(StopwordAnalyzerBase)

如果修改源码,标准分词器源码改变分词效果。

特殊说明:因为本人已对,标准分词器做了很多源码修改。

以下是问题补充:

@yimi:还是,直接对,文本内容中的特殊字符做转义 String text = "Lucene-PMC"; String text1 = "Lucene\-PMC"; (2016/11/03 17:28)
加载中
返回顶部
顶部