Jcseg 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Jcseg 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
Jcseg 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
Jcseg 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
Jcseg 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !

软件简介

Jcseg 是什么?

Jcseg 是基于 mmseg 算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的 lucene, solr, elasticsearch 的分词接口。Jcseg 自带了一个 jcseg.properties 文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长、是否开启中文人名识别、是否追加拼音、是否追加同义词等。

Jcseg 核心功能:

  • 中文分词:mmseg 算法 + Jcseg 独创的优化算法。

  • 关键字提取:基于textRank算法。

  • 关键短语提取:基于textRank算法。

  • 关键句子提取:基于textRank算法。

  • 文章自动摘要:基于BM25+textRank算法。

  • 自动词性标注:目前只是基于词库,效果不是很理想。

  • Restful api:嵌入 jetty 提供了一个绝对高性能的 server 模块,包含全部功能的 http 接口,标准化 json 输出格式,方便各种语言客户端直接调用。

Jcseg 中文分词:

四种切分模式:

  • 简易模式:FMM 算法,适合速度要求场合

  • 复杂模式:MMSEG 四种过滤算法,具有较高的歧义去除,分词准确率达到了98.41%

  • 检测模式:只返回词库中已有的词条,很适合某些应用场合

  • 检索模式:细粒度切分,专为检索而生,除了中文处理外(不具备中文的人名,数字识别等智能功能)其他与复杂模式一致(英文,组合词等)

  • 分隔符模式:按照给定的字符切分词条,默认是空格,特定场合的应用

  • NLP 模式:继承自复杂模式,更改了数字,单位等词条的组合方式,增加电子邮件,大陆手机号码,网址,人名,地名,货币等以及无限种自定义实体的识别与返回

  1. 支持自定义词库。在 lexicon 文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。

  2. 支持词库多目录加载,配置 lexicon.path 中使用';'隔开多个词库目录。

  3. 词库分为简体/繁体/简繁体混合词库:可以专门适用于简体切分、繁体切分、简繁体混合切分,并且可以利用下面提到的同义词实现,简繁体的相互检索,Jcseg 同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并。

  4. 中英文同义词追加/同义词匹配 + 中文词条拼音追加。词库整合了《现代汉语词典》和 cc-cedict 辞典中的词条,并且依据 cc-cedict 词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改 jcseg.properties 配置文档可以在分词的时候加入拼音和同义词到分词结果中。

  5. 中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且 Jcseg 会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。

  6. 支持中英混合词和英中混合词的识别(维护词库可以识别任何一种组合)。例如:B超, x射线, 卡拉ok, 奇都ktv, 哆啦a梦。

  7. 更好的英文支持,电子邮件,域名,小数,分数,百分数,字母和标点组合词(例如C++, c#)的识别。

  8. 自定义切分保留标点。例如: 保留 &,就可以识别 k&r 这种复杂词条。

  9. 复杂英文切分结果的二次切分:可以保留原组合,同时可以避免复杂切分带来的检索命中率下降的情况,例如QQ2013会被切分成: qq2013/ qq/ 2013,chenxin619315@gmail.com会被切分成:chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。

  10. 支持阿拉伯数字/小数/中文数字基本单字单位的识别,例如2012年,1.75米,38.6℃,五折,并且 Jcseg 会将其转换为“5折”加入分词结果中。

  11. 智能圆角半角, 英文大小写转换。

  12. 特殊字母识别:例如:Ⅰ,Ⅱ;特殊数字识别:例如:①,⑩。

  13. 配对标点内容提取:例如:最好的 Java 书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。

  14. 智能中文人名/外文翻译人名识别。中文人名识别正确率达 94% 以上。(中文人名可以维护 lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex 来提高准确率),(引入规则和词性后会达到 98% 以上的识别正确率)。

  15. 自动中英文停止词过滤功能(需要在 jcseg.properties 中开启该选项,lex-stopwords.lex 为停止词词库)。

  16. 词库更新自动加载功能, 开启一个守护线程定时的检测词库的更新并且加载。

  17. 自动词性标注(目前基于词库)。

  18. 自动实体的识别,默认支持:电子邮件,网址,大陆手机号码,地名,人名,货币等;词库中可以自定义各种实体并且再切分中返回。

Jcseg 快速体验:

终端测试:

  1. cd 到 Jcseg 根目录。

  2. ant all(或者使用 maven 编译)

  3. 运行:java -jar jcseg-core-{version}.jar

  4. 你将看到如下的终端界面

  5. 在光标处输入文本开始测试

+--------Jcseg chinese word tokenizer demo---------------+
|- @Author chenxin<chenxin619315@gmail.com>              |
|- :seg_mode  : switch to specified tokenizer mode.      |
|- (:complex,:simple,:search,:detect,:delimiter,:NLP)    |
|- :keywords  : switch to keywords extract mode.         |
|- :keyphrase : switch to keyphrase extract mode.        |
|- :sentence  : switch to sentence extract mode.         |
|- :summary   : switch to summary extract mode.          |
|- :help      : print this help menu.                    |
|- :quit      : to exit the program.                     |
+--------------------------------------------------------+
jcseg~tokenizer:complex>>

测试样板:

分词文本

歧义和同义词:研究生命起源,混合词: 做B超检查身体,x射线本质是什么,今天去奇都ktv唱卡拉ok去,哆啦a梦是一个动漫中的主角,单位和全角: 2009年8月6日开始大学之旅,岳阳今天的气温为38.6℃, 也就是101.48℉, 中文数字/分数: 你分三十分之二, 小陈拿三十分之五,剩下的三十分之二十三全部是我的,那是一九九八年前的事了,四川麻辣烫很好吃,五四运动留下的五四精神。笔记本五折包邮亏本大甩卖。人名识别: 我是陈鑫,也是jcseg的作者,三国时期的诸葛亮是个天才,我们一起给刘翔加油,罗志高兴奋极了因为老吴送了他一台笔记本。外文名识别:冰岛时间7月1日,正在当地拍片的汤姆·克鲁斯通过发言人承认,他与第三任妻子凯蒂·赫尔墨斯(第一二任妻子分别为咪咪·罗杰斯、妮可·基德曼)的婚姻即将结束。配对标点: 本次『畅想杯』黑客技术大赛的得主为电信09-2BF的张三,奖励C++程序设计语言一书和【畅想网络】的『PHP教程』一套。特殊字母: 【Ⅰ】(Ⅱ),英文数字: bug report chenxin619315@gmail.com or visit http://code.google.com/p/jcseg, we all admire the hacker spirit!特殊数字: ① ⑩ ⑽ ㈩.

分词结果:

歧义/n 和/o 同义词/n :/w 研究/vn 琢磨/vn 研讨/vn 钻研/vn 生命/n 起源/n ,/w 混合词 :/w 做/v b超/n 检查/vn 身体/n ,/w x射线/n x光线/n 本质/n 是/a 什么/n ,/w 今天/t 去/q 奇都ktv/nz 唱/n 卡拉ok/nz 去/q ,/w 哆啦a梦/nz 是/a 一个/q 动漫/n 中/q 的/u 主角/n ,/w 单位/n 和/o 全角/nz :/w 2009年/m 8月/m 6日/m 开始/n 大学/n 之旅 ,/w 岳阳/ns 今天/t 的/u 气温/n 为/u 38.6℃/m ,/w 也就是/v 101.48℉/m ,/w 中文/n 国语/n 数字/n //w 分数/n :/w 你/r 分/h 三十分之二/m ,/w 小陈/nr 拿/nh 三十分之五/m ,/w 剩下/v 的/u 三十分之二十三/m 全部/a 是/a 我的/nt ,/w 那是/c 一九九八年/m 1998年/m 前/v 的/u 事/i 了/i ,/w 四川/ns 麻辣烫/n 很/m 好吃/v ,/w 五四运动/nz 留下/v 的/u 五四/m 54/m 精神/n 。/w 笔记本/n 五折/m 5折/m 包邮 亏本/v 大甩卖 甩卖 。/w 人名/n 识别/v :/w 我/r 是/a 陈鑫/nr ,/w 也/e 是/a jcseg/en 的/u 作者/n ,/w 三国/mq 时期/n 的/u 诸葛亮/nr 是个 天才/n ,/w 我们/r 一起/d 给/v 刘翔/nr 加油/v ,/w 罗志高/nr 兴奋/v 极了/u 因为/c 老吴/nr 送了 他/r 一台 笔记本/n 。/w 外文/n 名/j 识别/v :/w 冰岛/ns 时间/n 7月/m 1日/m ,/w 正在/u 当地/s 拍片/vi 的/u 汤姆·克鲁斯/nr 阿汤哥/nr 通过/v 发言人/n 承认/v ,/w 他/r 与/u 第三/m 任/q 妻子/n 凯蒂·赫尔墨斯/nr (/w 第一/a 二/j 任/q 妻子/n 分别为 咪咪·罗杰斯/nr 、/w 妮可·基德曼/nr )/w 的/u 婚姻/n 即将/d 结束/v 。/w 配对/v 标点/n :/w 本次/r 『/w 畅想杯/nz 』/w 黑客/n 技术/n 大赛/vn 的/u 得主/n 为/u 电信/nt 09/en -/w bf/en 2bf/en 的/u 张三/nr ,/w 奖励/vn c++/en 程序设计/gi 语言/n 一书/ns 和/o 【/w 畅想网络/nz 】/w 的/u 『/w PHP教程/nz 』/w 一套/m 。/w 特殊/a 字母/n :/w 【/w Ⅰ/nz 】/w (/w Ⅱ/m )/w ,/w 英文/n 英语/n 数字/n :/w bug/en report/en chenxin/en 619315/en gmail/en com/en chenxin619315@gmail.com/en or/en visit/en http/en :/w //w //w code/en google/en com/en code.google.com/en //w p/en //w jcseg/en ,/w we/en all/en admire/en appreciate/en like/en love/en enjoy/en the/en hacker/en spirit/en mind/en !/w 特殊/a 数字/n :/w ①/m ⑩/m ⑽/m ㈩/m ./w
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (32)

加载中
mark
2019/10/23 12:28
回复
举报
使用sudo mvn compile 编译时报错: [INFO] Reactor Summary: [INFO] [INFO] jcseg .............................................. SUCCESS [ 0.003 s] [INFO] jcseg-core ......................................... FAILURE [ 1.753 s] [INFO] jcseg-analyzer ..................................... SKIPPED [INFO] jcseg-elasticsearch ................................ SKIPPED [INFO] jcseg-server ....................................... SKIPPED [INFO] ------------------------------------------------------------------------ [INFO] BUILD FAILURE [INFO] ------------------------------------------------------------------------ [INFO] Total time: 1.913 s [INFO] Finished at: 2019-03-07T09:47:35+08:00 [INFO] Final Memory: 17M/634M [INFO] ------------------------------------------------------------------------ [ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.6.0:compile (default-compile) on project jcseg-core: Compilation failure: Compilation failure: [ERROR] /mnt/sda1/jcseg/jcseg/jcseg-co
2019/03/07 09:52
回复
举报
打分: 力荐
怎么使用啊
2018/07/06 16:41
回复
举报
勉为其难表扬一下 @狮子的魂 童鞋!经我讨债鬼一般不断催促,终于修复了 #Jcseg# 分词器在 #ElasticSearch# 6.1.0 版本中分词时出现 offset 异常的问题。作为社区优秀的开源项目,新版代码自然已提交至码云 https://gitee.com/lionsoul/jcseg
2018/04/12 17:11
回复
举报
张华平10月8号结婚了.这句话用NLP分词,怎么会把结婚这个词给去掉呢?希望高手能给个思路
2017/11/02 10:59
回复
举报
打分: 较差
该评论暂时无法显示,详情咨询 QQ 群:912889742
NB
2017/05/17 22:49
回复
举报
打分: 力荐
用来分词1.5G的文件,大概需要10个小时。。一直运行会烧cpu吗?需要用线程来让电脑工作一会再休息一会吗?
2017/04/08 16:43
回复
举报
Unsupported major.minor version 52.0 (unable to load class org.lionsoul.jcseg.tokenizer.core.JcsegTaskConfig)
2017/03/31 19:15
回复
举报
打分: 力荐
棒棒的,公司的分词和关键字提取就用的这个!
2017/03/19 21:36
回复
举报
更多评论
2020/02/24 11:48

Jcseg 2.6.2 发布 - Java轻量级开源自然语言处理包

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口! Jcseg 2.6.2版本主要功能都是为Gitee的搜索设计的,体验可以搓:https://search.gitee.com/?skin=rec&type=repository&q=%E5%88%86%E8%AF%8D 2.6.2版本主要更新内容如下: ...

15
49
2019/09/09 10:07

Jcseg 2.5.0 发布,Java 轻量级开源自然语言处理包

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口! Jcseg 2.5.0更新如下: 1,修复NLP模式下部分“第xx”实体识别的position错误的bug (Reported by https://gitee.com/lionsoul/jcseg/issues/I10FKC)。 2,修复elasticsear...

9
37
2018/11/07 09:34

Jcseg 2.4.0 发布,Java 轻量级开源自然语言处理包

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口! Jcseg 2.4.0更新如下: 1,修复时间组合实体识别的bug,有时候会出现错误组合的情况。 2,优化NLP模式的时间实体的识别,区分组合时间,例如:"米"实体为"length.m","3米"...

3
44
2018/05/28 10:09

Jcseg 2.3.0 发布,Java 轻量级开源自然语言处理包

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口! jcseg 2.3.0更新如下: 1,NLP切分部分时间实体没有使用空格隔开的bug,例如:“2017年大年初三”,应该结果:“2017年 大年初三”。 2,检索模式重复输出的bug。report at...

13
40
发表了资讯
2017/09/06 14:04

Jcseg 2.2.0 发布,Java 轻量级开源自然语言处理包

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口! Jcseg 2.2.0更新内容如下: 检索模式SearchSeg增加粒度控制,切分单字,例如:”人民币“切分为”人,民,币,人民,人民币“。 同义词统一解决方案:同义词单独管理,同义词...

15
125
发表了资讯
2017/04/05 10:47

Jcseg 2.1.1 发布,Java 轻量级开源自然语言处理包

Jcseg 2.1.1 发布了。Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口! Jcseg 2.1.1 更新内容: 优化JcsegTokenizer的实现:clearAttributes改为到reset中调用,去除end()的调用,方便TokenStream外引用做相关统计查询工作。...

4
53
发表了资讯
2017/01/09 10:46

Jcseg 2.1.0 发布 - Java 开源中文分词器

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口! Jcseg 2.1.0更新内容: 一,新增功能: 01,词库增加词条实体标识和识别,方便应用对切分出来的词条做词条类别识别和应用,例如:时间,地点(比词性和实体识别更灵活,可以...

10
66
发表了资讯
2016/11/04 00:00

Jcseg 2.0.0 发布,自定义词库开发支持优化

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口! Jcseg 2.0.0更新如下: 1. 增加自定义词库开发文档(查看README)。 2. 完善关键字提取,关键短语提取,关键句子,自动摘要提取的自定义开发文档(查看README)。 3. 文档增...

8
42
发表了资讯
2016/07/07 00:00

Jcseg 1.9.9 发布,Maven 仓库上传+无痛安装与测试

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口! Jcseg 1.9.9更新如下: 1. 上传到了maven中心仓库,依赖地址如下(终于特么上maven了,1.9.8已经同步到了maven中心仓库,1.9.9还在同步中): * 1), jcseg (全部模块) <depe...

39
65
发表了资讯
2016/06/13 00:00

Jcseg 1.9.8 发布,新增检索模式/细粒度切分

Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分词接口。 Jcseg 1.9.8 更新内容: 增加检索切分模式(SEARCH_MODE),实现细粒度切分,专业为搜索。 增加DictionaryFactory#createSingletonDictionary,用于创建单例词库。 将analyzer,elasticsearch接口词库更改为单例创建,节省内存,同时避免...

25
65
发表了资讯
2016/04/20 00:00

Jcseg 新提交提供对 lucene-6.0.0,solr-6.0.0 和 elasticsearch-2.3.1 的支持

收到很多邮件提及要Jcseg对最新版本的lucene,solr,elasticsearch的支持,昨儿发布了新的提交,Jcseg主版本号未变,因为1.9.8的功能还在开发,特此通知! Jcseg新提交: 1,提供了对lucene-6.0.0和solr-6.0.0的支持。 2,提供了对elasticsearch-2.3.1的支持(集成文档,在README中有说明)。 3,修复了jcseg-server的一些bug(非紧急)。 需要最新版本的lucene和solr,以及elasticsearch支持的童鞋们,请下载最新源码!...

0
8
发表了资讯
2015/12/09 00:00

Jcseg-1.9.7 发布 - Restful API+文章自动摘要/关键字/短语/句子提取

Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分词接口, Jcseg自带了一个 jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等! Jcseg-1.9.7: 1. 词库优化:增加新词,去掉一些无用词,部分词条词性优...

8
88
发表了资讯
2015/06/09 00:00

Jcseg-1.9.6 发布,词性补全+lucene/solr/elasticsearch 最新版本支持

Jcseg[dʒɛ'ke'sɛ]是使用Java开发的一个轻量级中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene-5.1.0(发布时我发现5.2.0又发布了 ),solr-5.1.0,elasticsearch-1.5.2的分词接口. Jcseg-1.9.6: 1. mmseg过滤器的lazyInitRace bug修复。 2. 同义词&拼音的高亮显示bug修复。 3. detect模式增加位置返回和部分bug修复。 4. 词库词性补全(绝大部分常用词条的词性已经全部补全)。 5. 增加对最新版本的luc...

9
47
发表了资讯
2014/08/28 00:00

jcseg-1.9.5 发布 - Java轻量级开源中文分词器-elasticsearch分词插件

Jcseg[dʒɛ'ke'sɛ]是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene-4.9.0,solr-4.9.0,elasticsearch-1.3.2的分词接口. jcseg-1.9.5: 1. 修复部分英中混合词的同义词无法追加的bug. 2. 增加jcseg-elasticsearch模块 - elasticsearch切分插件. (elasticsearch-jcseg) 3. 修复切分词条的些许情况offset错误bug. 4. 更改对solr-4.9的支持. 另外直接在git项目中增加了对编译后的j...

6
25
发表了资讯
2014/06/09 00:00

jcseg-1.9.4 发布 - Java轻量级开源中文分词器-检测模式切分

Jcseg[dʒɛ'ke'sɛ]是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene-4.x和最高版本solr-4.x的分词接口. 1.9.3发布已经是三个月前的事情了,感叹下时间过的真快。 Jcseg-1.9.4更新如下: 1. 改善中英混合词的识别,可以识别更多情况, 例如: 高3。 2. 加入IHashQueue来替换原来的ILinkedList,改善word pool的性能,加快切分速度。 3. 更改org.lionsoul.jcseg.util.STConverter加入了更...

8
27
发表了资讯
2014/02/27 00:00

jcseg-1.9.3发布 - Java轻量级开源中文分词器-maven托管+优化

Jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口. Jcseg-1.9.3更新内容: 1. 更改为maven托管,同时也支持原始的ant编译,毕竟现在大部分的项目都使用了maven托管。 2. 优化复杂英文组合的二次切分,减少了一些没必要的追加调用。 3. 更换了复杂英文切分中二次切分词条和原词条的输出顺序,因为同义词追加的功能,二次切分的词条放在前面更合理。 4. 修复词库加载停止词长度限制判...

26
23
发表了资讯
2013/12/21 00:00

jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本

jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口. jcseg-1.9.2更新内容: 1. 配置文件中词库多目录加载, 多个目录使用';'隔开. 例如:在jcseg.properties中设置lexicon.path=/java/jcseg/lex1;/java/jcseg/lex2 2. 修复中文分数识别可能的一种错误组合的bug. 例如: 三二分之,现在可以很好的处理这些情况。 3. 修复部分中文分数无法转换为阿拉伯分数的bug. 这个是一个逻辑处理上面...

16
50
发表了资讯
2013/11/22 00:00

jcseg-1.9.1发布 - 繁体支持+词库管理工具+bug修复

jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口. jcseg-1.9.1发布了: 1. 优化IStringBuffer#resizeTo()方法, 使用System.arraycopy代替循环来拷贝元素, 当然为了更快的拷贝速度. 2. 增加了util.dic.STConverter类来进行简体和繁体字符串的相互转换. 3. 增加了util.dic.DicConverter来管理jcseg词库简体和繁体相互转换. 4. 增加了util.dic.DicMerge类来合并jcseg的简体和繁体词库生成简繁体...

2
14
发表了资讯
2013/10/16 00:00

jcseg-1.9.0 发布 - 英文同义词追加+中英任意组合识别

jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口. jcseg-1.9.0发布了, 具体更新如下: 1. 修复"小数+单位"组合无法识别的情况.更改ASegment#isDigit()方法. 2. 词库加载长度限制(长度大于max_length的过滤掉). 3. 更改中英混合词的识别(目前可以识别中英任何一种组合). 英中: 例如: b超, 英中英: a美1, 英中英中: a哆啦a梦, 中英: 卡拉ok, 中英中: 哆啦a梦, 中英中英: 中文a美a 3. 更改了单...

0
9
发表了资讯
2013/09/09 00:00

jcseg-1.8.9 发布-词性标注+标点切分+IntArrayList优化+bug修复

jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口. jcseg-1.8.9发布了: 具体更新如下: 1. 保留英文半全角标点和CJK标点符号切分(可通过停止词过滤掉,默认全部过滤掉了). 2. 词性标注. jcseg很早就半支持词性标注了, 这次彻底的完善了下, 当然在你使用这个功能前, 你需要完善词库的词性标注, jcseg的词性标注主要依赖词库来实现. jcseg词性 3. IStringBuffer#deleteCharAt bug修复. 这个感谢...

13
19
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2016/03/13 02:09

lucene5.5版本中文jcseg分词器

首先引入lucene5.5的pom文件 <dependency>     <groupId>org.apache.lucene</groupId>     <artifactId>lucene-core</artifactId>     <version>5.5.0</version> </dependency> <dependency>     <groupId>org.apache.lucene</groupId>     <artifactId>lucene-queryparser</artifactId>     <version>5.5.0</version> </dependency> <dependency>     <groupId>org.apache.lucene</groupId>    ...

0
4
发表了博客
2016/01/30 10:57

Lucene 5.2.1 + jcseg 1.9.6中文分词索引(Lucene 学习序列2)

Lucene 5.2.1 + jcseg 1.9.6中文分词索引(Lucene 学习序列2) jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组件,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口。 Java Code <span style="font-size:14px;">package com.qiuzhping.lucene; import java.sql.Connection; import java.sql.ResultSet; import java.sql.Statement; import org.apache.lucene.analy...

0
1
2016/11/05 17:48

中文文本分词,关键词提取工具jcseg使用方法

jcseg可以从文章或者语句中提取出关键词.并且能把中文数字自动转换成阿拉伯数字 效果如下: 目录结构: 实现: 注意:此处的jcsegTaskConfig 和 ADictionary主要用来加载词库和其它配置文件,是线程安全的,正式环境中如果有高并发量的调用此方法时应该提取到静态代码块中.否则会出现内存溢出异常. package test; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoun...

0
1
发表了博客
2015/04/24 16:51

Solr 服务器搭建

一、安装solr(未集成Tomcat,服务器上Tomcat不能安装成功) 参考网址:http://blog.csdn.net/clebeg/article/details/21241195 1. 安装 Solr5 step1: 下载Solr5 wget http://mirrors.hust.edu.cn/apache/lucene/solr/5.0.0/solr-5.0.0.tgz step2: 解压缩Solr5 tar –xzvf solr-5.0.0.tgz step3: 启Solr5 bin/solr start -e cloud -noprompt 二、solr配置中文分词jcseg 关于 jcseg: jcseg 是使用Java 开发的一款开源的中文分词器...

0
0
发表了博客
2018/12/29 11:10

elasticsearch 碰坑笔记

启动es,结果遇到这个错误 已经存在一个节点,于是乎ps -ef各种命令找不到已经启动的节点!!!! google一番,找到了其api,http://192.168.1.165:9200/article/_search 解决这个问题之后,再次启动es 索引关闭了!!!, 查看索引状态: 于是打开索引, 报错,提示: 再次谷歌一番,找到了历史。。。 https://gitee.com/lionsoul/jcseg/issues/ICOH7,https://github.com/lionsoul2014/jcseg/issues/36 然后参照@狮子的魂 的提示...

0
0
发表于软件架构专区
2016/04/19 16:43

solr词库实时更新维护

1、solr导入到eclipse 下载solr-5.4.1-src.tgz,官网地址http://www.apache.org/dyn/closer.lua/lucene/solr/5.4.1 解压solr-5.4.1-src.tgz到D:\project\java\solr-5.4.1目录,在目录的命令行下输入ant eclipse,然后进入漫长的等待过程,中间需要从网上下载很多依赖包。 编译时,可能会报Ivy could not be found in you ant classpath,去ivy官网(http://ant.apache.org/ivy/download.cgi)下载ivy.jar即可。 直到出现BUILD S...

0
7
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表于服务端专区
2020/05/29 14:51

jcseg分词器--词库删除分词无法自动加载

@狮子的魂 你好,想跟你请教个问题:我在使用solr+jcseg的时候,开启自动加载配置之后,可以将词库新增的分词加载,但是我删除一个分词后,却无法加载,版本2.2.0,请问该如何解决。

1
0
发表了问答
2015/03/06 16:51

jcseg自定义新词失败

@狮子的魂 你好,我在词库中加入 炎性肌纤维母细胞瘤 这个词,但是它还是切分了,请问怎么做才能让它完整不切分呢?我用的是最新1.9.5版本的jcseg

3
0
发表了问答
2015/04/02 15:33

请问elasticsearch中如下curl的请求怎么转化为java的写法?

post http://localhost:9200/mindex/cert/14/_termvector?pretty=true { "fields" : ["change"], "offsets" : true, "payloads" : true, "positions" : true, "term_statistics" : true, "field_statistics" : true } 其实我就是获取这篇文章的分词结果中每个词的出现频率和位置. 磨了半天百度和google,找出这个,但是在java中又找不到相关api...

4
1
发表了问答
2015/09/10 17:57

solr jcseg 词库自动加载的问题

@狮子的魂 你好,最近项目的搜索需要分词,试了好几种,碰到jcseg觉得很不错。 我现在的问题是按照配置顺序来的 但是还是没办法自动加载词库 solr启动时都没加载。 我想知道 除了配置autoload为1 和在lex-autoload.todo内加要更新的文件名 之外 还有其他的配置吗? solr 启动时 调试ADictionary内 autoloadThread为null 而自动加载 更是都没进去这个类...

34
0
发表了问答
2014/12/29 17:17

为什么jcseg的重新加载更改的词库功能在elasticsearch中不能生效?

为什么jcseg的重新加载更改的词库功能在elasticsearch中不能生效? 我根据开发文档描述,在配置把lexicon.autoload设置为1,将轮询时间改为30秒,启动elasticsearch后,修改了词库文件,然后再往lex-autoload.todo文件中追加那个修改的词库文件名,到指定时间后发现lex-autoload.todo文件的确已经自动清空,后台打印那边也提示ADictionary重新加载了那个词库(load词库的打印语句是我自己加上去的),最后用elasticsearch的_anal...

3
0
发表了问答
2015/08/22 19:18

关于jcseg,我该用什么方式导入到哪里来进行使用呢?

@狮子的魂 你好,想跟你请教个问题:我想使用您的jcseg,但是我不知道我怎么才能自主进行编程使用您的代码成果……

4
0
发表了问答
2016/12/07 17:48

jcseg是用哪个方法获取到词性呢

@狮子的魂 你好,想跟你请教个问题:RT,是从IWord对象中吗.需要获取名词还是动词这样的类型的话.配置文件jcseg.loadpos=1 已经开启了.版本是1.9.2,然后是哪个方法也麻烦告知下吧

13
0
发表了问答
2016/11/30 19:57

关于jcseg线程安全的问题

@狮子的魂 你好,想跟你请教个问题:我正在使用jcseg,想问下JcsegTaskConfig,ADictionary,ASegment这几个对象是线程安全的吗.因为我会有大量的文本去做分词,如果放在方法内的话会内存溢出,所以我定义成了全局变量,我看了下,感觉这几个都是加载配置使用的.但是我技术不太好.怕搞错.

2
0
发表了问答
2016/11/03 13:47

jcseg中10以内的中文数字该如何设置直接转换成阿拉伯数字

@狮子的魂 你好,想跟你请教个问题:我是将jar引入myeclipse使用的.也引入了lex-main.lex,目前10以上的中文数字都可以直接转换成阿拉伯数字,但是10以内的不会自动转,请问该用什么方式实现呢

3
0
发表了问答
2015/01/18 14:47

[转]与Lucene 4.10配合的中文分词比较(标准详细的比较)

本文转自: http://www.hansight.com/blog-lucene4.10-with-chinese-segment.html 感谢原作者。 比较目的 衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。 分词源代码介绍 paoding: 庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0,且最新提交的代码在 2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。 mmseg4j:最新版已从 https://code.google.com/...

7
24
发表了问答
2016/03/10 14:01

Token menchuang exceeds length of provided text sized 8

@狮子的魂 你好,想跟你请教个问题:我在索引库添加了拼音库的后,然后搜索,开启高亮时,就报 ERROR - 2016-03-10 13:42:59.185; org.apache.solr.common.SolrException; null:org.apache.solr.common.SolrException: org.apache.lucene.search.highlight.InvalidTokenOffsetsException: Token menchuang exceeds length of provided text sized 8 at org.apache.solr.highlight.DefaultSolrHighlighter.doHighlightingByHighl...

2
0
发表了问答
2015/12/04 20:11

分词出的词性标注代表啥?

@狮子的魂 你好,想跟你请教个问题:您好,我用了您的分词器,我想知道您分出的词的词性标注是什么意思呢?对照了一些词性标注表都无法正确识别词性。。。麻烦您了

2
0
发表了问答
2015/06/02 21:41

jcseg1.9.2搜索高亮时报错

@狮子的魂 你好,想跟你请教个问题:我用的jcseg1.9.2版本,最后lucene highlight高亮时报错: rg.apache.lucene.search.highlight.InvalidTokenOffsetsException: Token ev exceed s length of provided text sized 22 at org.apache.lucene.search.highlight.Highlighter.getBestTextFragments(H ighlighter.java:225) 网上看是mmseg的老问题,也看到你在oschina上之前回帖说,类似这个问题已经修复了。 我需要用最新...

11
0
发表了问答
2015/08/11 09:31

关于jcseg的最多分词实现

@狮子的魂 你好,想跟你请教个问题: 我现在想在jcseg基础上,加一个最多分词的功能,比如我想对“软件运行环境”进行分词,想要得到的结果类似这样的“软件、运行、软件运行、环境、运行环境”,现在的jcseg好像还不支持此功能。 我想自己尝试下,实现此功能,但是又没什么好的思路…… 能给我提供一个好的思路吗,谢谢了哈。

3
0
发表了问答
2013/09/25 21:00

关于jcseg和solr的集成

最近收到不少网友的邮件询问jcseg和solr的集成, jcseg和solr的集成过程中报如下类似错误: Caused by: org.apache.solr.common.SolrException: Plugin init failure for [schema.xml] analyzer/tokenizer: Error instantiating class: 'com.webssky.jcseg.solr.JcsegTokenizerFactory' at org.apache.solr.util.plugin.AbstractPluginLoader.load(AbstractPluginLoader.java:177) at org.apache.solr.schema.FieldTypePluginLoad...

2
2
发表了问答
2015/07/03 11:57

jcseg的同义词支持好像有点问题。

@狮子的魂 你好,想跟你请教个问题:jcseg的同义词支持好像有点问题。S01E01这个表示第一季第一集,美剧一般是这样分集的。我想实现 S01的同义词为 第一季 。E01的同义词为第一集。但是我在词典添加了一条记录的时候发现。 第一季/nt/di yi ji/S01 这样的分词结果是输入第一季,可以分词出S01,但输入S01却无法分词出 第一季。 S01/nt/di yi ji/第一季 这样返过来的话,同义词直接无效。 我用的是1.9.5版的。lucene是 4.10.4版的...

1
0
发表了问答
2015/06/06 19:07

分词算法具体细节求解答

@狮子的魂 你好,想跟你请教个问题: jcseg分词算法具体在哪个文件下了?如果我想对“中华人民”做分词,想要得到的结果是“中华,华人,人民,中华人民”。可是,现在词库里这些词都有,它却分出的是“中华,人民”只要前面的词被占有,它就不去词库里查找。求解答,谢谢!

2
1
发表了问答
2015/06/16 11:40

jcseg字典中的拼音是做什么的

医管局/nt/yi guan ju/医疗管理部门,医疗管理部,医疗管理局 医疗管理部/nt/yi liao guan li bu/医疗管理部门,医管局 医疗管理部门/nt/yi liao guan li bu men/医管局,医疗管理部 词/词性/拼音/连接 拼音主要是干什么的?

4
0
发表了问答
2015/05/21 10:43

detect_mode分词错误以及动态添加词库问题

@狮子的魂 你好,想跟你请教个问题: 我在使用DETECT_MODE模式分词时,发现一个很严重的错误,分词后词的offset不对,term的startOffset始终为0,如下图所示。 这种错误会导致FastVectorHighlighter无法正常高亮。 另外还有一个问题,如何在索引过程中动态的添加词库。如有两个待索引的文本doc1,doc2,两个文本按照某种规则(可以是正则)分别提取到词汇word1,word2(jcseg词库中均不包含该词)要求:在对doc1进行索引时,对文中...

3
0
发表了问答
2015/05/30 15:28

lex词库中的重复数据会不会影响分词速度?

@狮子的魂 你好,想跟你请教个问题:我在使用jcseg进行分词中,发现lex会出现很多重复的词。这些重复的词会不会影响分词速度?有什么好的解决办法吗?

1
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
32 评论
682 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部