jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.
jcseg-1.9.1发布了:
1. 优化IStringBuffer#resizeTo()方法, 使用System.arraycopy代替循环来拷贝元素, 当然为了更快的拷贝速度.
2. 增加了util.dic.STConverter类来进行简体和繁体字符串的相互转换.
3. 增加了util.dic.DicConverter来管理jcseg词库简体和繁体相互转换.
4. 增加了util.dic.DicMerge类来合并jcseg的简体和繁体词库生成简繁体混合词库.
5. 将jcseg目前的简体词库经过转换得到了一份繁体词库(将词库换为这份, 就可以使用于单独对繁体的切分).
词库可以到jcseg官网中下载到.
6. 将简体词库和繁体词库进行了合并, 得到了一份简繁体混合词库. 将词库换为这份, 就可以简繁体通用, 并且简体词条中包含了对应的繁体同义词词条, 繁体词条包含了对应的简体同义词词条, 可以实现简繁体相互检索的效果, 但是会耗费更多内存).
混合词库可以到jcseg官网中下载到.
7. 修复ASegment#nextBasicLatin()中"数字+空格+单位"组合中忽略空格直接组合数组和单位的bug.
另外在3和4的基础上面, jcseg提供两个简单的词库管理工具:
1. 词库的简繁体相互转换工具.
2. 词库的合并工具.
新发布的开发帮助文档用有对此工具的详细功能说明和使用说明. jcseg的繁体词库就是使用转换工具得到哦的, 混合词库就是使用合并工具将简体和繁体词库合并得到的.
另外: jcseg已经将源码托管到了git@osc: http://git.oschina.net/lionsoul/jcseg, 欢迎大家贡献力量...
感谢网友的一度支持和反馈, 祝您工作愉快...