jcseg-1.8.8发布 - 词库更新自动加载+自定义配置文件+中英混合词识别

狮子的魂
 狮子的魂
发布于 2013年07月10日
收藏 24

jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

jcseg-1.8.8版本发布了, 这次的更新项比较多, 主要如下:

1. 中英混合词的识别:

    不是已经支持中英混合词的识别了吗? 
    哈, 只能说是我说错了, 那是英中混合词的识别, 例如: b超, x射线.  这次的词是诸如: 卡拉ok, 奇都ktv, 漂亮mm等中文在前, 英文在后的词. 

    jcseg专门为此类词条建立了一个词库分类, 存放在lex-cemixed.lex词库中. 原来的lex-mixed.lex改名为了lex-ecmixed.lex.

2. 词库更新自动加载:

    原来, 如果你更改了词库, 需要重启jcseg相关服务, 对于词库需要经常更新的系统来说确实很不方便.
    从jcseg-1.8.8开始, 你只要把需要重新加载的词库文件名放在lexicon下的lex-autoload.todo文件中, jcseg会自动给你加载. 前提是在jcseg.properties中开启lexicon.auto=1, jcseg会启动一个守护线程来自动检测词库的更新.

3. 自定义配置文件:

    有网友反馈说他们的项目复杂, 配置文件都是统一管理, 但是jcseg只支持固定的几个目录配置文件查找, 还确实不方便. 这也是设计一个瑕疵. 从1.8.8版本开始, 你可以指定JcsegTaskConfig从指定的jcseg.properties文件初始化, 也就是配置文件可以放在任何地方.

4. 内部优化:

    最大的更改在词库上面, 因为需要自动加载词库, 词库的同步是个问题.
    从1.8.8开始, jcseg的词库分为同步词库和非同步词库. 如果需要词库自动更新服务, jcseg会自动创建同步词库, 如果没有此类操作, jcseg会创建非同步词库(速度更快).

5. 文档优化:

    新发布的开发文档中包含对jcseg API和词库API进行了详细的说明. 此次还对jcseg.properties配置文件进行了分类排版, 方便阅读更改.

开发帮助文档中有对上述功能的详细使用说明.

感谢网友的关注和反馈. 

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:jcseg-1.8.8发布 - 词库更新自动加载+自定义配置文件+中英混合词识别
加载中

最新评论(11

狮子的魂
狮子的魂

引用来自“行风”的评论

把“中共老官僚集团”加入词库,为什么老是分出“中共|老|官僚集团 ”呀?我想要一个整体的,不被拆分的词

哈, 默认情况下jcseg.maxlen=5, 也就是切分出来的词最大长度不会超过5, "中共老官僚集团"这个词长度为7了.

解决办法: 更改jcseg.properties中的jcseg.maxlen=7即可. 也建议不要超过7了, 那样会影响速度的.
行风
把“中共老官僚集团”加入词库,为什么老是分出“中共|老|官僚集团 ”呀?我想要一个整体的,不被拆分的词
狮子的魂
狮子的魂

引用来自“IT小马哥”的评论

用的是什么算法?

mmseg, 软件介绍页面有详细的说明。
IT小马哥
IT小马哥
用的是什么算法?
狮子的魂
狮子的魂

引用来自“孤独的3”的评论

下了一份研究研究,源码可以放到:git.oschina.net

恩, 刚才开通osc@git , 准备把代码托管到osc
如梦技术
如梦技术
下了一份研究研究,源码可以放到:git.oschina.net
狮子的魂
狮子的魂

引用来自“李志元”的评论

顶起来,选择自己合适的,自己喜欢的就行。

哈, 感谢支持. ^o^
李志元
顶起来,选择自己合适的,自己喜欢的就行。
狮子的魂
狮子的魂

引用来自“西门帅”的评论

这个比起盘古分词如何?

哈, 你可以试试. ^_^
狮子的魂
狮子的魂

引用来自“西门帅”的评论

这个比起盘古分词如何?

首先, 盘古很不错, 用C#开发的, 我不懂, 从而无法比较.

当前网络上的开源分词器速度都不错.

jcseg的功能比现在网络上的开源分词器都要齐全.
返回顶部
顶部