jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本

狮子的魂
 狮子的魂
发布于 2013年12月21日
收藏 50

jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

jcseg-1.9.2更新内容:

1. 配置文件中词库多目录加载, 多个目录使用';'隔开.

    例如:在jcseg.properties中设置lexicon.path=/java/jcseg/lex1;/java/jcseg/lex2

2. 修复中文分数识别可能的一种错误组合的bug.

    例如: 三二分之,现在可以很好的处理这些情况。

3. 修复部分中文分数无法转换为阿拉伯分数的bug.

    这个是一个逻辑处理上面的bug, 中文分数正常识别了,但是逻辑判断上面的bug导致没有转换。

4. 词库合并工具bug修复. 

    最新版本的词库已经上传到google code, 请使用最新版本的词库。

5. 词库加载错误友好提示. 

    如果词库中某些词条的格式错误,jcseg会直接终止,现在改成了提示用户哪个词库的哪个词条出错了,利于纠正过来。

6. 对复杂的数字和英文组合词进行再次切分。

    这个是本次更新最大的亮点,例如:qq2013会被切分成:qq2013/ qq/ 2013,chenxin619315@gmail.com会被切分成:chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com

    当然,你可以选择不开启这个功能。jcseg.properties中的控制选项。

    #Wether to start the secondary segmentation for the complex english words.
    jcseg.ensencondseg = 1

    #min length of the secondary simple token. (better larger than 1)
    jcseg.stokenminlen = 2

    jcseg对英文的处理是通过空格和标点来断开的,默认jcseg保留了一些标点,也就是保留标点会当作字符来处理,这样可以识别一些复杂常用的组合词,例如:k&r, c++等。就拿qq2013来说,其他的分词器都会切分成:qq/ 2013, jcseg认为两个字符组合在一起肯定有其特定的含义,要保留组合,同时如果进行二次切分,可以避免带来的检索命中下降的情况。


7. 将自动保留的标点放置到了jcseg.properties配置文件中, 方便更改并且默认去除了对/,^等的保留. 

    方便用户自定义配置保留标点,也可以选择去掉。。。

感谢网友的反馈和支持,祝您心情愉快。。。 


本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本
加载中

最新评论(16

狮子的魂
狮子的魂

引用来自“davidchiu”的评论

现在JCSeg是Solr中文分词的不二选择
感谢支持。。。。
d
davidchiu
现在JCSeg是Solr中文分词的不二选择
狮子的魂
狮子的魂

引用来自“java10001”的评论

赞一个

感谢。。。
java10001
java10001
赞一个
狮子的魂
狮子的魂

引用来自“-XIAOMA”的评论

赞一个

^0^
-
-XIAOMA
赞一个
狮子的魂
狮子的魂

引用来自“江梓龙”的评论

分词也许不是最好的。但就凭这个加载速度,真是太棒了

恩,感谢你的支持。我不管是否是最好的,但是一定会越做越好的。。。
江梓龙
江梓龙
分词也许不是最好的。但就凭这个加载速度,真是太棒了
狮子的魂
狮子的魂

引用来自“KDash”的评论

从功能和性能来说,个人认为是目前开源分词器中最好的分词器,而且没有之一。。。

^0^, 继续努力。。。
狮子的魂
狮子的魂

引用来自“小安安”的评论

继IK之后有一个好分词

谢谢。。。
返回顶部
顶部