jcseg-1.9.0 发布 - 英文同义词追加+中英任意组合识别

狮子的魂
 狮子的魂
发布于 2013年10月16日
收藏 9

jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

jcseg-1.9.0发布了, 具体更新如下:

1. 修复"小数+单位"组合无法识别的情况.更改ASegment#isDigit()方法.

2. 词库加载长度限制(长度大于max_length的过滤掉).

3. 更改中英混合词的识别(目前可以识别中英任何一种组合).
    英中: 例如: b超,
    英中英: a美1,
    英中英中: a哆啦a梦,
    中英: 卡拉ok, 
    中英中: 哆啦a梦, 
    中英中英: 中文a美a
3. 更改了单位组合, 现在可以组合更多非中文单位, 例如: ℃,℉

4. 对于未识别的字符, 给定一个开关选项(jcseg.keepunregword)来决定保留还是过滤.
    这个一直备受增益: jcseg对于不识别的符号直接过滤掉了, jcseg目前已经识别中英文中任何字符和标点包括一些特殊标点, 那么其他的不识别符号的保留在检索领域并不是一个好的选择, 这里加上了一个开关选项, 用户可以自己定义去留...

5. 英文同义词的追加 (增加了lex-en.lex词库)

同时开发帮助文档没变

祝大家心情愉悦. 

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:jcseg-1.9.0 发布 - 英文同义词追加+中英任意组合识别
加载中
返回顶部
顶部