IKAnalyzer 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
IKAnalyzer 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
IKAnalyzer 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
IKAnalyzer 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
IKAnalyzer 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发中文分词库
开源组织
地区 国产
投 递 者 林良益
适用人群 未知
收录时间 2008-12-03

软件简介

IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

  1. 采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;

  2. 在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

  3. 2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

  4. 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符

  5. 优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。

IKAnalyzer 同时还有一个非官方的 .NET 版本 —— IKAnalyzer.NET

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (17)

加载中
1
2020/11/02 17:59
回复
举报
打分: 力荐
说闲话一边站,有本事自己来一个
2017/08/22 10:02
回复
举报
究竟什么是扩展停止词字典呢,一直没有搞明白
2017/08/16 18:43
回复
举报
#IKAnalyzer# 什么时候更新?
2017/08/15 15:00
回复
举报
打分: 还行
这玩意儿多久没维护了吧。
2016/12/27 15:27
回复
举报
打分: 力荐
该评论暂时无法显示,详情咨询 QQ 群:912889742
一直等更新的
2016/12/22 14:42
回复
举报
solr IKAnalyzer
2012/04/17 18:44
回复
举报
冲着内置中文分词去用 ElasticSearch,结果还不如没有,怒上 IKAnalyzer
2012/10/18 20:33
回复
举报
https://github.com/oschina/search-framework 基本已完工,主要是一些 LuceneIKAnalyzer 的简单封装。
2013/01/18 10:23
回复
举报
更多评论
发表了资讯
2015/01/22 00:00

IKAnalyzer 中文分词库源码已迁移到 Git@OSC

IKAnalyzer 是一个非常著名和老牌的 Java 中文分词库,目前 OSChina 网站也是使用 IK 分词器。IKAnalyzer 的代码一直放在 Google Code 的,你知道的,Google Code 系统做得比较“糟糕”,经常无法访问。 为了方便开发者快速方便获取代码,IKAnalyzer 的作者 @林良益 已经将项目源码托管到 Git@OSC 平台,项目地址是: http://git.oschina.net/wltea/IK-Analyzer-2012FF...

34
58
发表了资讯
2012/10/23 00:00

IK Analyzer 2012 FF for Lucene 4.0 发布

最近一段时间正式公司事务最忙碌的时候,Lucene4.0和Solr4.0发布后,便收到了广大网友的大量邮件要求更新版本,这让我既开心又感到鸭梨大啊~~ 花了3天时间,了解了Lucene4.0和solr 4.0与分词相关部分的源码。果然,又是一次不兼容的修订啊~~ 时间紧迫的推出了IK Analyzer 2012 FF版本 (你问啥是FF,其实就是For 4.0),在API和功能上保持不变,只是让其支持了Lucene4.0和Solr4.0,让这部分的用户能用起来。 如果你还是Lucene3...

16
13
发表了资讯
2012/03/15 00:00

IK Analyzer 2012 发布,中文分词库

IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词 歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分...

11
37
发表了资讯
2010/09/13 00:00

IK Analyzer 3.2.5 稳定版发布

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为 面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 IK Analyzer 3.2.5 版本在 3.2.3 版本基础上修订了如下内容: 1.修订了分词器内部的数组越...

2
4
发表了资讯
2010/05/26 00:00

IK Analyzer 3.2.3 稳定版 for Lucene 3.0 发布

IK Analyzer 3.2.3版本修订 在3.2.0版本基础上,更新如下: 1.优化词典匹配算法,将IK分词器速度提高至80万字/秒 2.添加对韩文、日文的支持,采用单字切分 3.增加IKQueryParser的 setMaxWordLength 方法,使其支持最大词长切分 下载地址 IKAnalyzer3.2.0稳定版发布包 IKAnalyzer3.2.0稳定版源代码

1
2
发表了资讯
2009/12/10 00:00

IKAnalyzer 3.2.0 发布,兼容 Lucene 3.0

由于Lucene3.0 API的全面升级,且不再与Lucene2.X兼容, IK Analyzer为此推出了3.2.0版本。该版本仅支持Lucene2.9 / 3.0和solr1.4的接口实现。 IK Analyzer 3.2.0版本修订 1.支持Lucene3.0 Analyzer实现 2.移除solr1.3接口,修改solr1.4接口 3.默认开放停止词功能,发布IK自带的ext_stopword.dic停止词典 4.优化了IKQueryParser的性能 下载地址:http://ik-analyzer.googlecode.com/files/IKAnalyzer3.2.0Stable_bin.rar IKAna...

0
0
发表了资讯
2009/08/31 00:00

IKAnalyzer 3.1.1 稳定版发布

IK Analyzer 3.1.1Stable版本是基于3.1.1GA2的变更: 1.修订了IK Analyzer 与 solr项目集成时,出现指针越界的不兼容的问题。 感谢北京何健网友的测试帮助。 下载 :IKAnalyzer3.1.1稳定版完整包.rar 更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》 项目地址:http://code.google.com/p/ik-analyzer/ 请使用SVN下载源码。...

1
0
发表了资讯
2009/07/27 00:00

中文分词器 IK Analyzer 3.0 发布

IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IK Analyzer 3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 1.1 IK Analyzer 3.0结构设计 1.2 IK Analyzer 3.0特性 采用了特有的“正向迭代最细粒度...

0
14
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2014/10/01 21:09

中文分词之IKAnalyzer

下载列表:https://code.google.com/p/ik-analyzer/downloads/list 我下载的是:IKAnalyzer2012_u6.zip 下面讲述一下基本的使用流程: 1、下载后将其解压 解压结果是: IKAnalyzer.cfg.xml内容如下: <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties>   <comment>IK Analyzer 扩展配置</comment>   <!--用户可以在这里配置自己的扩展字典   <ent...

0
0
发表了博客
2019/03/20 17:36

IKAnalyzer分词

今天遇到一个新需求 需要在easyui的组件combox中输入一段文字,然后根据文字自动匹配选项 先获取combox的输入文字 function getGoodSeries(){ var value = ""; //console.log($(".combo-text")); $.each($(".combo-text"),function(i,o){ //console.log($(o).parent().prev().attr('comboname')); if($(o).parent().prev().attr('comboname') == 'tgdw'){ //console.log($(o).val()); value = $(o).val(); } }); return value; ...

0
0
发表了博客
2019/05/15 09:46

Solr 集成ikanalyzer

###Solr 不能对中文进行分词,ikanalyzer可以。 ikanalyzer下载链接 ##1.下载 jar形式 ##2.放到D:\soft\solr-8.1.0\server\solr-webapp\webapp\WEB-INF\lib路径下 ##3.在路径D:\soft\solr-8.1.0\server\solr下,新建一个mycore ##4. 复制 路径D:\soft\solr-8.1.0\example\example-DIH\solr\solr下所有文件,放到D:\soft\solr-8.1.0\server\solr\mycore ##5.找到D:\soft\solr-8.1.0\server\solr\mycore\conf 路径下的managed-sch...

0
0
发表了博客
2014/07/12 16:32

中文分词(IKAnalyzer)

package com.leixinhui.test; import java.io.IOException; import java.io.Reader; import java.io.StringReader; import org.wltea.analyzer.IKSegmentation; import org.wltea.analyzer.Lexeme; public class Test {   /**    * @param args    */   public static void main(String[] args) {     Reader reader = null;     IKSegmentation segmentation = null;     Lexeme lexeme = null;     reade...

0
0
发表于AI & 大数据专区
2014/08/26 10:51

lucene4.0与IKAnalyzer的冲突

在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包。 运行之后发现异常:Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader;)Lorg/apache/lucene/analysis/TokenStream; 原因IKAnalyzer中参考手册中的例子是使用的lucene3.4,与4.0已经是不兼容了。 从google 上面下载 IK Analy...

0
0
发表了博客
2018/06/24 12:06

solr 7.x 配置ikanalyzer

一.使用支持高版本的ikanalzyer进行分词配置(尾部有文件链接) ikanalyzer最后更新是在2012年,对于高版本的lucee不支持.但网上还是有被修改过的Ikanalyzer的6.5.0版本,试了下可以支持lucene7.x整合到solr7.x中也没什么问题 1.jar包准备 2.把IkAnalyzer6.5的jar包放在tomcat8/webapps/solr/WEB-INF/lib目录下 3.把ext.dic,IKanalyzer.cfg.xml,stopword.dic放在tomcat8/webapps/solr/WEB-INF/classes目录下 4.修改solrcore下的的m...

0
0
发表于服务端专区
2015/03/11 00:16

IKAnalyzer源码学习

## 名词说明 * Lexeme(词元):成功识别的完整的词(在下面论述中为了方便表达,扩展了其不完整的情况,实际中不存在)。 * AnalyzeContext:分词过程中的上下文环境,非线程安全。 * LexemePath:词元路径(或者矢量),用于歧义消除。 * Segmenter:分词器。 * 完整词:一个词库中的词(个人胡乱发明的)。 * 前缀:一个完整词的开头部分。 * 歧义:由于断句的不同,句子可能产生歧义。如“他是中国大学博士”分词存在“他/是/...

0
4
发表了博客
2014/05/23 17:47

Lucene使用IKAnalyzer分词实例 及 IKAnalyzer扩展词库

http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html

0
1
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2015/04/22 15:33

Lucene模糊查询结果不准确

直接描述现实情况: 现有两个产品: A 杭州西溪湿地西区 B 西溪湿地黑根蜡像馆 用“西溪”做模糊查询(WildcardQuery),A搜不出来,B可以搜出来,这是神马情况? 其他补充: 分词器用的IKAnalyzer,词库中也有“西溪”这个词。

4
0
发表了问答
2012/07/19 14:04

【开源访谈】IKAnalyzer 作者林良益访谈实录

关于开源访谈 开源访谈是开源中国推出的一系列针对国内优秀开源软件作者的访谈,以文字的方式记录并传播。我们希望开源访谈能全面的展现国内开源软件、开源软件作者的现状,着实推动国内开源软件的应用与发展。 【嘉宾简介】 林良益 一位资深的Java程序员,多个开源项目的发起者。有11年的程序开发和设计经验。从事过电信,证券,政府,互联网等多个领域的系统开发与设计。现任畅游福州分公司(17173)java系统架构师。 【软件简...

29
44
发表了问答
2013/09/10 09:28

IKanalyzer扩展词库动态加载问题

扩展词库更新后,只有重启搜索服务,重建索引才有效果,如何做到不需要重启搜索服务就能重新加载 扩展词库呢?

12
0
发表了问答
2016/07/05 12:12

IKAnalyzer 分词后怎么提取关键词

@石头上的常春藤 你好,想跟你请教个问题: 你好,在网上看到你给别人的回复,说用ansj 及IKAnalyzer 分词提取关键字,现在分词是可以,关键字怎么提取,能不能私聊下,谢谢了。

1
0
发表了问答
2015/01/18 14:47

[转]与Lucene 4.10配合的中文分词比较(标准详细的比较)

本文转自: http://www.hansight.com/blog-lucene4.10-with-chinese-segment.html 感谢原作者。 比较目的 衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。 分词源代码介绍 paoding: 庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0,且最新提交的代码在 2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。 mmseg4j:最新版已从 https://code.google.com/...

7
24
发表了问答
2016/06/11 23:37

ikanalyzer和lucene整合关于扩展词典

ik版本是3.2.0stable.jar lucene版本是3.0.2.jar ----------------IKAnalyzer.cfg.xml的配置内容---------------------------- <properties> <entry key="ext_dict">/ext_first.dic</entry> </properties> ------------------测试代码------------------------------------------------- public static void main(String[] args) throws IOException { new TestAnalyzer().test(new IKAnalyzer(), "我是个大帅哥,而且很聪明的大...

4
0
发表了问答
2016/01/13 18:50

IKAnalyzer 对英文分词不起作用啊?求指点

IKAnalyzer 对英文分词不起作用啊?求指点 英文怎么分词?

4
0
发表了问答
2015/12/16 07:58

请问分词器的词典里的词存在空格怎么处理?

@杨尚川 你好,想跟你请教个问题: 当想我使用Word想对一些文本进行分词时,我想能分出这样带空格的词,如:Uniform Server 但是,我即使把Uniform Server这个词加入到main_dic.txt主词典中,我也没有办法得到分词:uniform server。请问我有什么办法能得到这种带空格的词吗? 谢谢

7
0
发表了问答
2015/09/17 11:00

IKAnalyzer分词时,stopword.dic文件不放在根目录下可以吗

不想将stopword.dic文件放在根目录下,应该如何在IKAnalyzer.cfg.xml(该文件在根目录下)中配置路径呢

1
0
发表了问答
2012/07/24 11:05

lucene+MongoDB+IKAnalyzer 做全文搜索

package sample3; import java.io.File; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.store.FSDirectory; import org.wltea.analyzer.lucene.IKAnalyzer; import com.mongodb.DB; import com.mongodb.DBCollection; import com.mongodb.DBCursor; import co...

3
7
发表了问答
2012/04/27 22:11

IKAnalyzer分词时能保留原文中的所有字符,包括标点符号吗

我查看了一下IK的文档示例,在中文分词后的结果中原字符串中的标点符号都被忽略掉了,有没有办法保留原字符串中的所有字符,只是做分割的动作呢?

8
1
发表了问答
2015/08/12 13:52

请问有分词器有分粒度大一点的么,java的

目前有个整形项目,通过nutch爬取得到很多中文,通过IK分词效果不是特别理想,如“矫正牙齿”会分成“矫正”和“牙齿”,但是需要这样的词是连起来的,也就是说每一个动词都要后加一个名词

3
0
发表了问答
2013/08/13 23:27

IKAnalyzer没有maven坐标吗,现在要和lucene4.4结合应该用哪个jar文件?

@林良益 你好,想跟你请教个问题:如题

3
1
发表了问答
2014/06/23 00:12

solr索引时分词,如果更新词库了怎么办??

最近在用solr做一个项目,不断开发不断完善,但同事提出一个问题,以前没考虑过,想了想好像确实有问题。 问题描述: 目前索引的时候分词器采用的是max-word(当然与算法无关),目前我的词库有30万词,假如:以后我的词库增加了,那么检索的时候是没有问题的,但原来已经索引的数据,怎么办呢?原来索引的时候有些词没有,被分成了单字,现在更新词库有了,那怎么办呢????同事提出这样,想了想确实有问题。不知道是我用的方...

5
2
发表了问答
2014/03/29 10:19

IKAnalyzer分词器自定义扩展字典设置不起作用

public class TestIKAnalyzer2 {   public static void main(String[] args) throws IOException {     String text = "2012年欧洲杯四强赛";     Analyzer analyzer = new IKAnalyzer(true);     TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));     CharTermAttribute term= tokenStream.addAttribute(CharTermAttribute.class);     tokenStream.reset(); while(tokenStream.increment...

10
2
发表了问答
2015/04/02 10:19

请问分词器的字典在搜索引擎中起什么作用

我用jcseg切分大段中文放入elasticsearch,发现即使字典没有的词一样可以搜索出来。使用match_phrase能完全匹配。 如词“南阳县旅游”这个词,切分的字典里有这个词和没这个词,有什么区别? 是查询效率有区别吗? 网上搜了一圈都是泛泛而论,谢谢回复。

2
0
发表了问答
2014/11/27 14:52

IKAnalyzer的分词结果有误

@林良益 你好,想跟你请教个问题: 下面这个程序,使用IKanalyzer进行分词,“你好啊”像这样的“X好啊”形式的词都会出现把X删掉,只出现“好啊”,如下面: 我觉得,分词的话应该不能删减原话,所以想这个是不是IKAnalyzer处理的问题。 代码在:http://yunpan.cn/cAXgwHbqMXfjp 访问密码 e3cd

4
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
17 评论
705 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部