0
回答
lucene StandardAnalyzer
利用AWS快速构建适用于生产的无服务器应用程序,免费试用12个月>>>   

lucene 版本5.2.1

在使用lucene StandardAnalyzer(标准分词器)针对生物文本进行分词索引的时候,”Lucene-PMC“像这样的词汇会被拆分为:

1:[Lucene]:(0-->6):<ALPHANUM>

2:[PMC]:(7-->10):<ALPHANUM>

英文标准分词器(StandardAnalyzer )继承了 停用词分词器(StopwordAnalyzerBase)

如果修改源码,标准分词器源码改变分词效果。

特殊说明:因为本人已对,标准分词器做了很多源码修改。

<无标签>
举报
yimi
发帖于1年前 0回/45阅

以下是问题补充:

  • @yimi :还是,直接对,文本内容中的特殊字符做转义 String text = "Lucene-PMC"; String text1 = "Lucene\-PMC"; (1年前)
顶部