Jcseg

软件主页
关注
Jcseg 是什么? Jcseg 是基于 mmseg 算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的 ...
加载中
2
回答
jcseg自定义新词失败

@狮子的魂 你好,我在词库中加入 炎性肌纤维母细胞瘤 这个词,但是它还是切分了,请问怎么做才能让它完整不切分呢?我用的是最新1.9.5版本的jcseg

2015/03/06 16:51
4
回答
请问elasticsearch中如下curl的请求怎么转化为java的写法?
fir01 的回答 2015/04/02 18:37
最佳答案
TermVectorRequestBuilder requestBuilder = client.prepareTermVector("mishu_index", "cert", "14").setSelectedFields("change"); TermVectorResponse res...
14
回答
solr jcseg 词库自动加载的问题

@狮子的魂 你好,最近项目的搜索需要分词,试了好几种,碰到jcseg觉得很不错。 我现在的问题是按照配置顺序来的 但是还是没办法自动加载词库 solr启动...

2015/09/10 17:57
2
回答
为什么jcseg的重新加载更改的词库功能在elasticsearch中不能生效?
狮子的魂 的回答 2014/12/30 22:02
最佳答案
我自己用的elasticsearch,但是还没用到过词库自动更新。 elasticsearch启动会让Jcseg创建几份词库,然后你描述的问题就来了,可能只有一个线程更新词库成功。解决办法: 1. 更改elasticsearch插件中的Jcseg使用单例词库。
4
回答
关于jcseg,我该用什么方式导入到哪里来进行使用呢?
狮子的魂 的回答 2015/08/22 23:47
最佳答案
1. 直接使用eclipse选择导入-》导入maven项目即可! 2. 不习惯maven就直接使用你自己熟悉的IDE建立一个项目,把Jcseg的中的jcseg-core内的源码导入或者直接拷贝到你的项目即可。 3. 参考或者直接运行org.lionsoul.jcseg.test.JcsegTe...
2
回答
jcseg是用哪个方法获取到词性呢
狮子的魂 的回答 2016/12/07 19:25
最佳答案
词条相关的信息都是统一从IWord接口获取: //method prototype public String[] getPartSpeech(); String pos = word.getPartSpeech(); if ( pos != null ) { //有可能没有词性 System...
1
回答
关于jcseg线程安全的问题
狮子的魂 的回答 2016/11/30 22:46
最佳答案
1,ADictionary词库对象,一般一个项目只使用一个词库实例即可,这个可以提前创建并且加载词库,然后全局使用。 2,JcsegTaskConfig也可以提前创建然后设置好然后全局使用。 3,但是,ASegment对象不能并发调用,建议是一个线程得创建一个,也可以需要的时候随时创建,如下:...
2
回答
jcseg中10以内的中文数字该如何设置直接转换成阿拉伯数字
狮子的魂 的回答 2016/11/03 18:24
最佳答案
默认的单字的中文数字是不会转成阿拉伯数字的,语义上讲“四”不一定代表4。你可以该更下代码,将next返回的结果增加如下判断: if ( w.getLength() == 1 && NumericUtil.isCNNumeric(w.getValue()) > -1 ) { //单字数字 } 具...
7
回答
[转]与Lucene 4.10配合的中文分词比较(标准详细的比较)

本文转自: http://www.hansight.com/blog-lucene4.10-with-chinese-segment.html 感谢原作者...

2015/01/18 14:47
2
回答
Token menchuang exceeds length of provided text sized 8

@狮子的魂 你好,想跟你请教个问题:我在索引库添加了拼音库的后,然后搜索,开启高亮时,就报 ERROR - 2016-03-10 13:42:59.185...

2016/03/10 14:01
2
回答
分词出的词性标注代表啥?

@狮子的魂 你好,想跟你请教个问题:您好,我用了您的分词器,我想知道您分出的词的词性标注是什么意思呢?对照了一些词性标注表都无法正确识别词性。。。麻烦您了

2015/12/04 20:11
2
回答
jcseg1.9.2搜索高亮时报错

@狮子的魂 你好,想跟你请教个问题:我用的jcseg1.9.2版本,最后lucene highlight高亮时报错: rg.apache.lucene.s...

2015/06/02 21:41
2
回答
关于jcseg的最多分词实现
狮子的魂 的回答 2015/08/12 13:42
最佳答案
哈,这个是我一直打算要加的功能!是下一个版本的计划,不过我还没开始开发! 我是打算做成一个配置选项,方便点的方式是做成另外一种切分模式! 建议你可以做成另外一种切分模式,也就是单独写个ISeg实现,这样实现方便些! 如果合并到现在的ASegment实现,思路初步有两个: 1, 记录mmseg切...
1
回答
关于jcseg和solr的集成

最近收到不少网友的邮件询问jcseg和solr的集成, jcseg和solr的集成过程中报如下类似错误: Caused by: org.apache.so...

2013/09/25 21:00
1
回答
jcseg的同义词支持好像有点问题。

@狮子的魂 你好,想跟你请教个问题:jcseg的同义词支持好像有点问题。S01E01这个表示第一季第一集,美剧一般是这样分集的。我想实现 S01的同义词为...

2015/07/03 11:57
2
回答
分词算法具体细节求解答

@狮子的魂 你好,想跟你请教个问题: jcseg分词算法具体在哪个文件下了?如果我想对“中华人民”做分词,想要得到的结果是“中华,华人,人民,中华人民”。...

2015/06/06 19:07
3
回答
jcseg字典中的拼音是做什么的
狮子的魂 的回答 2015/06/17 23:10
最佳答案
有个博主写了篇应用: http://blog.csdn.net/WeiJonathan/article/details/40504029
2
回答
detect_mode分词错误以及动态添加词库问题

@狮子的魂 你好,想跟你请教个问题: 我在使用DETECT_MODE模式分词时,发现一个很严重的错误,分词后词的offset不对,term的startOf...

2015/05/21 10:43
1
回答
lex词库中的重复数据会不会影响分词速度?

@狮子的魂 你好,想跟你请教个问题:我在使用jcseg进行分词中,发现lex会出现很多重复的词。这些重复的词会不会影响分词速度?有什么好的解决办法吗?

2015/05/30 15:28
2
回答
autoload bug

@狮子的魂 你好,想跟你请教个问题:我本想使用autoload 功能,修改jcseg.properties autoload=1 但是并没有生效,通过观察...

2015/05/29 15:44

没有更多内容

加载失败,请刷新页面

返回顶部
顶部