jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.
jcseg-1.9.0发布了, 具体更新如下:
1. 修复"小数+单位"组合无法识别的情况.更改ASegment#isDigit()方法.
2. 词库加载长度限制(长度大于max_length的过滤掉).
3. 更改中英混合词的识别(目前可以识别中英任何一种组合).
英中: 例如: b超,
英中英: a美1,
英中英中: a哆啦a梦,
中英: 卡拉ok,
中英中: 哆啦a梦,
中英中英: 中文a美a
3. 更改了单位组合, 现在可以组合更多非中文单位, 例如: ℃,℉
4. 对于未识别的字符, 给定一个开关选项(jcseg.keepunregword)来决定保留还是过滤.
这个一直备受增益: jcseg对于不识别的符号直接过滤掉了, jcseg目前已经识别中英文中任何字符和标点包括一些特殊标点, 那么其他的不识别符号的保留在检索领域并不是一个好的选择, 这里加上了一个开关选项, 用户可以自己定义去留...
5. 英文同义词的追加 (增加了lex-en.lex词库)
同时开发帮助文档没变
祝大家心情愉悦.