jcseg-1.9.1发布 - 繁体支持+词库管理工具+bug修复

来源: 投稿
作者: 狮子的魂
2013-11-22 00:00:00

jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

jcseg-1.9.1发布了:

1. 优化IStringBuffer#resizeTo()方法, 使用System.arraycopy代替循环来拷贝元素, 当然为了更快的拷贝速度.

2. 增加了util.dic.STConverter类来进行简体和繁体字符串的相互转换.

3. 增加了util.dic.DicConverter来管理jcseg词库简体和繁体相互转换.

4. 增加了util.dic.DicMerge类来合并jcseg的简体和繁体词库生成简繁体混合词库.

5. 将jcseg目前的简体词库经过转换得到了一份繁体词库(将词库换为这份, 就可以使用于单独对繁体的切分). 

    词库可以到jcseg官网中下载到. 

6. 将简体词库和繁体词库进行了合并, 得到了一份简繁体混合词库. 将词库换为这份, 就可以简繁体通用, 并且简体词条中包含了对应的繁体同义词词条, 繁体词条包含了对应的简体同义词词条, 可以实现简繁体相互检索的效果, 但是会耗费更多内存).

    混合词库可以到jcseg官网中下载到.

7. 修复ASegment#nextBasicLatin()中"数字+空格+单位"组合中忽略空格直接组合数组和单位的bug.

另外在3和4的基础上面, jcseg提供两个简单的词库管理工具: 

1. 词库的简繁体相互转换工具.

2. 词库的合并工具.

新发布的开发帮助文档用有对此工具的详细功能说明和使用说明. jcseg的繁体词库就是使用转换工具得到哦的, 混合词库就是使用合并工具将简体和繁体词库合并得到的.

另外: jcseg已经将源码托管到了git@osc: http://git.oschina.net/lionsoul/jcseg, 欢迎大家贡献力量...

感谢网友的一度支持和反馈, 祝您工作愉快...   

 

展开阅读全文
14 收藏
分享
2 评论
14 收藏
分享
返回顶部
顶部