jcseg-1.9.3发布 - Java轻量级开源中文分词器-maven托管+优化

来源: 投稿
作者: 狮子的魂
2014-02-27 00:00:00

Jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

Jcseg-1.9.3更新内容:

1. 更改为maven托管,同时也支持原始的ant编译,毕竟现在大部分的项目都使用了maven托管。

2. 优化复杂英文组合的二次切分,减少了一些没必要的追加调用。 

3. 更换了复杂英文切分中二次切分词条和原词条的输出顺序,因为同义词追加的功能,二次切分的词条放在前面更合理。 

4. 修复词库加载停止词长度限制判断的bug(老bug了)。 

5. PushbackReader的内存溢出bug。
    使用JDK自带的PushbackReader需要指定缓冲区的大小,虽然我选择了一个合适的值,但是还是出现了网友报告缓冲区溢出的错误,这次重写了IPushbackReader,提供类似PushbackReader类似的接口,不会再出现该问题。

感谢广大网友的一直关注和反馈。

祝大家工作愉快。

展开阅读全文
23 收藏
分享
26 评论
23 收藏
分享
返回顶部
顶部