Jcseg 2.2.0 发布,Java 轻量级开源自然语言处理包 - 开源中国社区
Jcseg 2.2.0 发布,Java 轻量级开源自然语言处理包
狮子的魂 2017年09月06日

Jcseg 2.2.0 发布,Java 轻量级开源自然语言处理包

狮子的魂 狮子的魂 发布于2017年09月06日 收藏 127

腾讯云 十分钟定制你的第一个小程序>>>  

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!

Jcseg 2.2.0更新内容如下:

  1. 检索模式SearchSeg增加粒度控制,切分单字,例如:”人民币“切分为”人,民,币,人民,人民币“。

  2. 同义词统一解决方案:同义词单独管理,同义词之间自动相互引用,同义词追加和自动合并(REAMD中增加了详细的同义词说明文档)。

  3. 单个词条多实体支持,词条的实体可以定义多个,IWord#Entity变为数组。

  4. NLP切分优化,修复datetime,time实体识别和其他部分bug。

  5. 词库优化。

关于同义词:

同义词具体格式参考码云项目下的vendors/lexicons/lex-synonyms.lex
在词库的第一行增加CJK_SYN,定义其为同义词词库即可,可以建立多个。

1,基本格式如下:

词根,同义词1[/可选拼音],同义词2[/可选拼音],...同义词n[/可选拼音]

例如:

研究,研讨,研发,研磨/yan mo

2,同义词要求:

01),第一个词条为词根,这个词条必须是CJK_WORD词库中已有的词条
02),其他同义词可以不用存在,jcseg会自动将其加入词库,并且词条之间相互引用同义词
03),同义词会继承词根的词性和实体定义,也会继承本词条的拼音(如果该词条存在),也可以在其后自定义拼音。

该版本已经在自己的NLP平台中稳定运行3个月+,稳定性已经经过压测,NLP需求的重点升级!

最新版本下载地址:

1,大码云:http://git.oschina.net/lionsoul/jcseg/tree/v2.2.0-release

2,github:https://github.com/lionsoul2014/jcseg/releases/tag/v2.2.0-release

3,maven仓库

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:Jcseg 2.2.0 发布,Java 轻量级开源自然语言处理包
分享
评论(15)
精彩评论
7
正在项目中使用,Jcseg是我目前所使用自然处理软件中最好的一个,支持大神!
4
:+1::+1::+1:
2
已经在 elasticsearch 5.5.1 集成使用,好评:tulip:
1
666, mark,mark~
最新评论
0
是一个工具类还是服务器通过请求调用
0
:thumbsup::+1::+1:膜拜大神!
0

引用来自“宇林木风”的评论

这个对比hanlp之类的NLP工具,效果何如?
我不做对比这事儿,每个开源软件写出来都不容易,都一定会有自己的特色,看开发者的喜好。:pray:
0
流弊的中文分词器
0
mark
0
这个对比hanlp之类的NLP工具,效果何如?
2
已经在 elasticsearch 5.5.1 集成使用,好评:tulip:
0

引用来自“寻花不问柳”的评论

为啥不集面tomcat呢?
这两个东西都差不多吧,jetty更轻量级
0
为啥不集面tomcat呢?
0
不明觉厉啊,支持大神!
1
666, mark,mark~
0
wink::wink::wink::wink
7
正在项目中使用,Jcseg是我目前所使用自然处理软件中最好的一个,支持大神!
0
大事mark一下,我是mark党。。
4
:+1::+1::+1:
顶部