jcseg-1.9.3发布 - Java轻量级开源中文分词器-maven托管+优化

狮子的魂
 狮子的魂
发布于 2014年02月27日
收藏 23

Jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

Jcseg-1.9.3更新内容:

1. 更改为maven托管,同时也支持原始的ant编译,毕竟现在大部分的项目都使用了maven托管。

2. 优化复杂英文组合的二次切分,减少了一些没必要的追加调用。 

3. 更换了复杂英文切分中二次切分词条和原词条的输出顺序,因为同义词追加的功能,二次切分的词条放在前面更合理。 

4. 修复词库加载停止词长度限制判断的bug(老bug了)。 

5. PushbackReader的内存溢出bug。
    使用JDK自带的PushbackReader需要指定缓冲区的大小,虽然我选择了一个合适的值,但是还是出现了网友报告缓冲区溢出的错误,这次重写了IPushbackReader,提供类似PushbackReader类似的接口,不会再出现该问题。

感谢广大网友的一直关注和反馈。

祝大家工作愉快。

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:jcseg-1.9.3发布 - Java轻量级开源中文分词器-maven托管+优化
加载中

最新评论(28

狮子的魂
狮子的魂

引用来自“雪里说”的评论

请问,支持lucene5吗?
目前版本1.9.9了,默认支持的lucene是6.0以上了,http://git.oschina.net/lionsoul/jcseg/tags 旧的tag中有支持5.x的,需要自己整合下!
许雪里
许雪里
请问,支持lucene5吗?
狮子的魂
狮子的魂

引用来自“小狼君”的评论

请问兼容lucene 4.8吗
现在都lucene 6.0.0了,旧版本的支持都覆盖了!
更改下org.lionsoul.analyzer包下的东西兼容lucene 4.8就ok了!
小狼君
小狼君
请问兼容lucene 4.8吗
狮子的魂
狮子的魂

引用来自“luyuwww”的评论

@狮子的魂 期待你早日找个资源库. 我们好引用呀.
好的。
luyuwww
luyuwww
@狮子的魂 期待你早日找个资源库. 我们好引用呀.
狮子的魂
狮子的魂

引用来自“luyuwww”的评论

@狮子的魂 希望上传到中央库啊,造福人类,就只要配置一个pom管理一下就行
收到。
luyuwww
luyuwww
@狮子的魂 希望上传到中央库啊,造福人类,就只要配置一个pom管理一下就行
狮子的魂
狮子的魂

引用来自“江梓龙”的评论

@狮子的魂 希望上传到中央库啊,造福人类,就只要配置一个pom管理一下就行
收到,对于上传到中央库我没有经验,试试。。。
返回顶部
顶部