Jcseg 1.9.9 发布,Maven 仓库上传+无痛安装与测试 - 开源中国社区
Jcseg 1.9.9 发布,Maven 仓库上传+无痛安装与测试
狮子的魂 2016年07月07日

Jcseg 1.9.9 发布,Maven 仓库上传+无痛安装与测试

狮子的魂 狮子的魂 发布于2016年07月07日 收藏 65

【腾讯云】如何快速搭建微信小程序?>>>  

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!

Jcseg 1.9.9更新如下:

1. 上传到了maven中心仓库,依赖地址如下(终于特么上maven了,1.9.8已经同步到了maven中心仓库,1.9.9还在同步中):

* 1), jcseg (全部模块)

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>jcseg</artifactId>
    <version>1.9.9</version>
</dependency>


* 2), jcseg-core:

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>jcseg-core</artifactId>
    <version>1.9.9</version>
</dependency>


* 3), jcseg-analyzer (lucene或者solr):

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>jcseg-analyzer</artifactId>
    <version>1.9.9</version>
</dependency>


* 4), jcseg-elasticsearch

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>jcseg-elasticsearch</artifactId>
    <version>1.9.9</version>
</dependency>


* 5), jcseg-server (独立的应用服务器)

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>jcseg-server</artifactId>
    <version>1.9.9</version>
</dependency>


2. JcsegTaskConfig更改构造方法如下:

JcsegTaskConfig()                   //不做任何内部初始化
JcsegTaskConfig(boolean autoLoad)   //是否自动寻找配置文件
JcsegTaskConfig(String proFile)     //指定配置文件初始化
JcsegTaskConfig(InputStream is)     //指定输入流初始化


3. JcsegTaskConfig或者jcseg.properties中的词库路劲支持设置为null。

4. ADictionary词库基类增加如下载入词库方法:

load(File file)                 //从File中载入全部词条
load(String file)               //从指定文件路劲中载入全部词条
load(InputStream is)            //从输入流中载入全部词条
loadDirectory(String lexDir)    //载入一个词库目录下的全部词条
loadClassPath()                 //从classpath中载入全部词条


5. jcseg-core-{version}.jar中自动打包了一份jcseg.properties和全部的词库,从此只需要jcseg-core-{version}.jar文件即可运行,无需任何依赖,同时也可以在jcseg-core-{version}.jar目录下存放一份jcseg.properties配置文件来自定义全部选项,例如:最大切分长度,自定义词库路径等。

6. 词库优化,增加一些新词条。

版本仓库地址:

https://github.com/lionsoul2014/jcseg
http://git.oschina.net/lionsoul/jcseg

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:Jcseg 1.9.9 发布,Maven 仓库上传+无痛安装与测试
分享
评论(39)
最新评论
0
你好,我们用的是es5.2,jcseg2.1,刚才按照您说的,加了一下security.policy,还有写入权限,可是还是不行。重启es后,发现没有jcseg进程,请问一下重启es以后,是不是jcseg也会起来呢?如果我要是手动起jcseg服务,todo文件可以清空,但是用es调用分词接口,发现没有起作用
0

引用来自“xiaoleizi111”的评论

请问一下,我们现在elastic search分词插件使用的jcseg,但是现在更新词库,lex-autoload.todo一直未清空,而且发现重启es,lex-autoload.todo也不会清空,请问大概是什么原因造成的呢

引用来自“狮子的魂”的评论

1,使用最新版本的源码,es插件是后面几个版本词库才默认更改为单例模式,之前都有问题。
2,确保jcseg对lex-autoload.todo的写入权限,最新的几个es版本默认都没有权限,需要在security.policy中grant权限才可以。
你好,我们用的是es5.2,jcseg2.1,刚才加了一下security.policy,还有写入权限,可是还是不行。重启es后,发现没有jcseg进程,请问一下重启es以后,是不是jcseg也会起来呢?
0

引用来自“xiaoleizi111”的评论

请问一下,我们现在elastic search分词插件使用的jcseg,但是现在更新词库,lex-autoload.todo一直未清空,而且发现重启es,lex-autoload.todo也不会清空,请问大概是什么原因造成的呢
1,使用最新版本的源码,es插件是后面几个版本词库才默认更改为单例模式,之前都有问题。
2,确保jcseg对lex-autoload.todo的写入权限,最新的几个es版本默认都没有权限,需要在security.policy中grant权限才可以。
0
请问一下,我们现在elastic search分词插件使用的jcseg,但是现在更新词库,lex-autoload.todo一直未清空,而且发现重启es,lex-autoload.todo也不会清空,请问大概是什么原因造成的呢
0

引用来自“jetliu1987”的评论

<fieldtype name="text_jcseg" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="complex"/>
</analyzer>
    <analyzer type="query">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="search"/>
</analyzer>
</fieldtype>

不知道这样配置是否可行?

引用来自“狮子的魂”的评论

我对solr也不熟悉,Jcseg这边不用更改什么,查了文档是在solr的配置文件中指定就OK了,你这边试下你贴的方案!

引用来自“jetliu1987”的评论

我试过了,没问题的。
也就是你提供的方案是可以行的,我记录下放到Jcseg文档里面,感谢!
0

引用来自“jetliu1987”的评论

<fieldtype name="text_jcseg" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="complex"/>
</analyzer>
    <analyzer type="query">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="search"/>
</analyzer>
</fieldtype>

不知道这样配置是否可行?

引用来自“狮子的魂”的评论

我对solr也不熟悉,Jcseg这边不用更改什么,查了文档是在solr的配置文件中指定就OK了,你这边试下你贴的方案!
我试过了,没问题的。
0

引用来自“jetliu1987”的评论

<fieldtype name="text_jcseg" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="complex"/>
</analyzer>
    <analyzer type="query">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="search"/>
</analyzer>
</fieldtype>

不知道这样配置是否可行?

引用来自“狮子的魂”的评论

OK,我这边再确认,需要再给个提交!

引用来自“jetliu1987”的评论

提交呢?

引用来自“KDash”的评论

你这问题问题的,最讨厌你们这种伸手党,人家作为一个公司的CTO,周末放弃休息时间来完善软件,不可能随时盯这你这需求,可以自己摸索啊!
谁是伸手党啦,没看到我写的内容,自己没看懂就瞎喷,没见过像你这种装逼的人,林子大了什么鸟都有。
0

引用来自“jetliu1987”的评论

<fieldtype name="text_jcseg" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="complex"/>
</analyzer>
    <analyzer type="query">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="search"/>
</analyzer>
</fieldtype>

不知道这样配置是否可行?
我对solr也不熟悉,Jcseg这边不用更改什么,查了文档是在solr的配置文件中指定就OK了,你这边试下你贴的方案!
0

引用来自“抓瓦工人”的评论

老版加载词库很别扭,我已经改成自动扫描classpath加入了

引用来自“狮子的魂”的评论

这么好的想法,居然独享,你会没朋友的!

引用来自“抓瓦工人”的评论

不是啊,公司上不了互联网,回头分享一下
新版本不做任何配置,默认会从classpath中加载词库了!分享可以有。。。
0

引用来自“抓瓦工人”的评论

老版加载词库很别扭,我已经改成自动扫描classpath加入了

引用来自“狮子的魂”的评论

这么好的想法,居然独享,你会没朋友的!
不是啊,公司上不了互联网,回头分享一下
0

引用来自“Aoseala”的评论

好像maven 还是无法下载啊?
@KDash ,貌似有这个问题,jcseg.version变量定义的问题,你的可能是之前本地安装过,已经修改提交了,等待同步到cetra repositry中。。。
0

引用来自“jetliu1987”的评论

<fieldtype name="text_jcseg" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="complex"/>
</analyzer>
    <analyzer type="query">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="search"/>
</analyzer>
</fieldtype>

不知道这样配置是否可行?
solr的索引和检索自定义不同的分词器是属于solr的配置,和Jcseg关系不大! 对于Jcseg:<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="complex"/>就定义了一个分词器,你找到solr索引和检索的定义然后放上对应的:<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="complex"/>定义即可!
0

引用来自“jetliu1987”的评论

<fieldtype name="text_jcseg" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="complex"/>
</analyzer>
    <analyzer type="query">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="search"/>
</analyzer>
</fieldtype>

不知道这样配置是否可行?

引用来自“狮子的魂”的评论

OK,我这边再确认,需要再给个提交!

引用来自“jetliu1987”的评论

提交呢?
你这问题问题的,最讨厌你们这种伸手党,人家作为一个公司的CTO,周末放弃休息时间来完善软件,不可能随时盯这你这需求,可以自己摸索啊!
0

引用来自“Aoseala”的评论

好像maven 还是无法下载啊?
search.maven.org里面检索org.lionsoul出来的结果!我这可以下载,我这貌似可以,提示啥错误呢?
0

引用来自“Aoseala”的评论

好像maven 还是无法下载啊?
GroupId  ArtifactId  Latest Version  Updated  Download
org.lionsoul  jcseg  1.9.9 all (2)  07-Jul-2016  pom
org.lionsoul  jcseg-server  1.9.9 all (2)  07-Jul-2016  pom jar javadoc.jar sources.jar
org.lionsoul  jcseg-elasticsearch  1.9.9 all (2)  07-Jul-2016  pom jar javadoc.jar sources.jar
org.lionsoul  jcseg-analyzer  1.9.9 all (2)  07-Jul-2016  pom jar javadoc.jar sources.jar
org.lionsoul  jcseg-core  1.9.9 all (2)  07-Jul-2016  pom jar javadoc.jar sources.jar
0
好像maven 还是无法下载啊?
0

引用来自“Ken5233”的评论

请问一下,现在的分词能做到关键句提取吗?

学历要求:大学本科及硕士以上
提取后的结果要是: 大学本科及硕士以上
能做到这种吗? @狮子的魂
@狮子的魂
0
请问一下,现在的分词能做到关键句提取吗?

学历要求:大学本科及硕士以上
提取后的结果要是: 大学本科及硕士以上
能做到这种吗? @狮子的魂
0
呀,maven上了,又升级了,顶一个!
0

引用来自“jetliu1987”的评论

<fieldtype name="text_jcseg" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="complex"/>
</analyzer>
    <analyzer type="query">
<tokenizer class="org.lionsoul.jcseg.analyzer.v5x.JcsegTokenizerFactory" mode="search"/>
</analyzer>
</fieldtype>

不知道这样配置是否可行?

引用来自“狮子的魂”的评论

OK,我这边再确认,需要再给个提交!
提交呢?
顶部