Jcseg 2.0.0 发布,自定义词库开发支持优化

狮子的魂
 狮子的魂
发布于 2016年11月04日
收藏 42

    Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!

    Jcseg 2.0.0更新如下:

    1. 增加自定义词库开发文档(查看README)。

    2. 完善关键字提取,关键短语提取,关键句子,自动摘要提取的自定义开发文档(查看README)。

    3. 文档增加词库自动加载lex-autoload.todo权限提示(启动时检测权限,如果权限不够会提示)

    4. DictionaryFactory增加如下两个接口方便自定义词库开发

createDefaultDictionary(JcsegTaskConfig config, boolean sync, boolean loadDic)
createSingletonDictionary(JcsegTaskConfig config, boolean loadDic)
/*
 * loadDic 用于控制工厂是否自动从config检测并且加载词库,兼容旧版本的默认是自动监测加载
 * 方便用户自定义加载自己的设置的词库
*/

    5. 修复了并发情况下IWord#position可能的污染bug,这个bug会导致lucene的高亮错误。

    6. 优化了复杂英文组合的二次切分,确保返回词条后者的startOffset大于等于前者的,这个bug也会导致lucene默认的高亮机制错误。

    maven仓库同步中,下载/git仓库:https://github.com/lionsoul2014/jcseg

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:Jcseg 2.0.0 发布,自定义词库开发支持优化
加载中

最新评论(8

张亦俊
张亦俊

引用来自“554330833a”的评论

自己实现的分词算法吗?准确率高吗
mmseg基本还是个娱乐用的,对词典依赖极高。
554330833a
554330833a
自己实现的分词算法吗?准确率高吗
t
twelvescore
:bowtie:
😃
t
twelvescore
😄
KDash
KDash
貌似在完善文档的节奏,证明吐槽还是有点用的!期待2.0.1的功能!😍
uni7corn
uni7corn
mark
_
__zzq__
哦几个人口香我天天来人在
_
__zzq__
我老婆老头
返回顶部
顶部