Jcseg 2.1.0 发布 - Java 开源中文分词器
狮子的魂 2017年01月09日

Jcseg 2.1.0 发布 - Java 开源中文分词器

狮子的魂 狮子的魂 发布于2017年01月09日 收藏 66 评论 10

Wannacry病毒全球蔓延 如何有效防范勒索软件入侵?>>>  

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!

Jcseg 2.1.0更新内容:

一,新增功能:

  • 01,词库增加词条实体标识和识别,方便应用对切分出来的词条做词条类别识别和应用,例如:时间,地点(比词性和实体识别更灵活,可以持有n种自定义实体类别),后续会增加更多类别的实体识别。

  • 02,新增了NLPSeg切分模式,用于NLP分析,继承自复杂模式,修改了数字,单位等词条的组合形式,增加电子邮件,大陆手机号码,网址,地名,人名,货币等实体的自动识别。

  • 03,分隔符切分模式,对输入流直接按照单个分隔符(默认是空格)切分,特殊应用场景需求(个人项目需求开发)。

  • 04,增加对目前最新版本的lucene-6.3.0的支持。

  • 05,增加对目前最新版本的solr-6.3.0的支持。

  • 06,增加对目前最新版本的elasticsearch-5.1.1的支持。

  • 07,bug修复:DictionaryFactory#createSingletonDictionary loadDic参数无效bug修复。

二,优化功能:

  • 08,优化Jcseg的英中组合词条的识别算法,之前的除类似“x射线”等英中混合词识别外,其他的类别的混合词维护过于麻烦,全部混合词库统一到lex-mixed.lex中管理或者新建词库;形如:x射线,卡拉ok,哆啦a梦等这类混合词条直接丢入lex-mixed.lex词库中即可。

  • 09,部分词库类别合并到主类别(中英组合,英中组合,英文标点,英文词库),方便维护,也是为Jcseg的NLP计划做准备。

  • 10,优化了词库加载的检测(关于各类词条对于config.max_length的检测验证)。

  • 11,增加英文词条最大长度为64个字符的限制,防止输入很长的无空白英文字符串导致可能的内存溢出。

  • 12,优化了jcseg-server模块的api数据处理,简化了api数据返回格式,请参考README文档。

  • 13,词库优化,将ip2region中的全部地域词库合并到了lex-place.lex中作为统一地名词库。

  • 14,优化了测试程序,关键字提取,自动摘要提取,关键短语提取以及分词的6中模式全部可以在通过运行jcseg-core-{version}.jar来体验,按照如下提示输入切换操作即可:

+--------Jcseg chinese word tokenizer demo---------------+
|- @Author chenxin<chenxin619315@gmail.com>              |
|- :seg_mode  : switch to specified tokenizer mode.      |
|- (:complex,:simple,:search,:detect,:delimiter,:NLP)    |
|- :keywords  : switch to keywords extract mode.         |
|- :keyphrase : switch to keyphrase extract mode.        |
|- :sentence  : switch to sentence extract mode.         |
|- :summary   : switch to summary extract mode.          |
|- :help      : print this help menu.                    |
|- :quit      : to exit the program.                     |
+--------------------------------------------------------+
jcseg~tokenizer:complex>>

升级指南:

2.1.0版本因为的词库的更改和之前的版本有些不兼容,升级注意两点:

  • 01,如果之前自定义过混合词库(中英,英中混合都一样),则需要将混合词库的第一行的类别标识更改为:CJK_WORD,不然会不兼容而出现没法识别混合词的情况。

  • 02,如果之前自定义过词库文件格式,2.1.0开始词库文件硬编码使用“lex-”开头和“.lex”结尾,jcseg.properties中关于此功能的配置项已经无效。

  • 03,因为elasticsearch 5.1.1开始必须java 8才能运行,目前jcseg默认的编译版本变成了1.8如果你的产品没法同步,请删除elasticsearch模块,然后更改pom.xml中的版本重新编译即可。

下载地址:

1,大码云(推荐):http://git.oschina.net/lionsoul/jcseg/tree/v2.1.0-release

2,github:https://github.com/lionsoul2014/jcseg/tree/v2.1.0-release

3,maven仓库同步中。

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:Jcseg 2.1.0 发布 - Java 开源中文分词器
分享
评论(10)
最新评论
0
作者非常nice:smile:
0
难道就是用这个实现的Big Bong
0
赞!
0
给力
0
赞一个
0
项目会用分词和搜索,先mark一下。
0
支持:joy:
0
作者挺厉害
0
也用了这哥们的ip2region,支持一个!
0
吃瓜群众我又来了,先mark下!:bowtie:

相关资讯

最新资讯
热门资讯
顶部