中文分词库 IKAnalyzer

中文分词库 IKAnalyzer

Apache
Java
跨平台
2008-12-03
林良益

IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

  1. 采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;

  2. 在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

  3. 2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

  4. 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符

  5. 优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。

IKAnalyzer 同时还有一个非官方的 .NET 版本 —— IKAnalyzer.NET

加载中

评论(16)

l
lihuhujiushiwo
说闲话一边站,有本事自己来一个
Fly鹰
Fly鹰
究竟什么是扩展停止词字典呢,一直没有搞明白
stormcc
stormcc
#IKAnalyzer# 什么时候更新?
CapJes
CapJes
这玩意儿多久没维护了吧。
墨子Zhai
墨子Zhai
Jason
Jason
一直等更新的
7哥
7哥
#IKAnalyzer# 的官网地址是多少?
曾杰
曾杰
@林良益 IK没有实现正向OR反向分词,但是有些场景还是会用到,是否会考虑加进去? #IKAnalyzer#
金贞花
金贞花
这个东西是不是不会再更新了。。。 IKAnalyzer
金贞花
金贞花
这个东西是不是不会再更新了。。。 IKAnalyzer

IKAnalyzer 中文分词库源码已迁移到 Git@OSC

IKAnalyzer 是一个非常著名和老牌的 Java 中文分词库,目前 OSChina 网站也是使用 IK 分词器。IKAnalyzer 的代码一直放在 Google Code 的,你知道的,Google Code 系统做得比较“糟糕”,经常...

2015/01/22 08:27

IK Analyzer 2012 FF for Lucene 4.0 发布

最近一段时间正式公司事务最忙碌的时候,Lucene4.0和Solr4.0发布后,便收到了广大网友的大量邮件要求更新版本,这让我既开心又感到鸭梨大啊~~ 花了3天时间,了解了Lucene4.0和solr 4.0与分词...

2012/10/23 18:37

IK Analyzer 2012 发布,中文分词库

IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词...

2012/03/15 08:43

IK Analyzer 3.2.5 稳定版发布

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词...

2010/09/13 20:57

IK Analyzer 3.2.3 稳定版 for Lucene 3.0 发布

IK Analyzer 3.2.3版本修订 在3.2.0版本基础上,更新如下: 1.优化词典匹配算法,将IK分词器速度提高至80万字/秒 2.添加对韩文、日文的支持,采用单字切分 3.增加IKQueryParser的 setMaxWord...

2010/05/26 18:22

IKAnalyzer 3.2.0 发布,兼容 Lucene 3.0

由于Lucene3.0 API的全面升级,且不再与Lucene2.X兼容, IK Analyzer为此推出了3.2.0版本。该版本仅支持Lucene2.9 / 3.0和solr1.4的接口实现。 IK Analyzer 3.2.0版本修订 1.支持Lucene3.0 A...

2009/12/10 07:24

没有更多内容

加载失败,请刷新页面

没有更多内容

27
回答
【开源访谈】IKAnalyzer 作者林良益访谈实录

关于开源访谈 开源访谈是开源中国推出的一系列针对国内优秀开源软件作者的访谈,以文字的方式记录并传播。我们希望开源访谈能全面的展现国内开源软件、开源软件作者...

2012/07/19 14:04
11
回答
IKanalyzer扩展词库动态加载问题
狮子的魂 的回答 2013/09/10 11:46
最佳答案
1. 扩展词库更新后, 需要重建索引才能让新词库对已有的数据生效这个是必须的. 2. 新加入词库后, 重启搜索服务这个可以避免. 不知道IK是否支持词库更新自动加载? 不支持的话, 哥们可以试下jcseg.
1
回答
IKAnalyzer 分词后怎么提取关键词

@石头上的常春藤 你好,想跟你请教个问题: 你好,在网上看到你给别人的回复,说用ansj 及IKAnalyzer 分词提取关键字,现在分词是可以,关键字怎...

2016/07/05 12:12
7
回答
[转]与Lucene 4.10配合的中文分词比较(标准详细的比较)

本文转自: http://www.hansight.com/blog-lucene4.10-with-chinese-segment.html 感谢原作者...

2015/01/18 14:47
1
回答
ikanalyzer和lucene整合关于扩展词典

ik版本是3.2.0stable.jar lucene版本是3.0.2.jar ----------------IKAnalyzer.cfg.xml的配置...

2016/06/11 23:37
3
回答
IKAnalyzer 对英文分词不起作用啊?求指点

IKAnalyzer 对英文分词不起作用啊?求指点 英文怎么分词?

2016/01/13 18:50
2
回答
BosonNLP分词与词性标注引擎新版上线,全面免费开放!

分词在很多网站平台,APP的开发中都是不可或缺的组件,但网上常见的分词项目,对新词与切分歧义的处理差强人意,甚至缺乏一个统一的词语切分标准。在过去的一年时...

2015/08/31 17:55
4
回答
请问分词器的词典里的词存在空格怎么处理?

@杨尚川 你好,想跟你请教个问题: 当想我使用Word想对一些文本进行分词时,我想能分出这样带空格的词,如:Uniform Server 但是,我即使把U...

2015/12/16 07:58
1
回答
BosonNLP分词技术解密

在九月初BosonNLP全面开放了分词和词性标注引擎以后,很多尤其是从事数据处理和自然语言研究的朋友在试用后很好奇,玻森如何能够做到目前的高准确率?希望这...

2015/10/22 15:17
1
回答
IKAnalyzer分词时,stopword.dic文件不放在根目录下可以吗

不想将stopword.dic文件放在根目录下,应该如何在IKAnalyzer.cfg.xml(该文件在根目录下)中配置路径呢

2015/09/17 11:00

没有更多内容

加载失败,请刷新页面

Lucene使用IKAnalyzer中文分词笔记

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。

2014/09/02 17:08
8.4K
1
在Solr4.9中使用IKAnalyzer,实现同义词,扩展词库,停顿词的添加

在使用solr4.9的过程中,使用了IKAnalyzer分词器,其中遇到了不少问题,现在做个记录,以备后续只用。 首先使用IKAnalyzer是看到群里有人介绍,但是貌似现在IKAnalyzer已经没人更新了。。。不...

2014/09/11 09:18
1K
0
Lucene的中文分词器IKAnalyzer

分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写...

2013/02/05 18:26
1K
0
maven打本地jar包

mvn install:install-file -Dfile=IKAnalyzer-1.0.jar -DgroupId=com.enuo -DartifactId=IKAnalyzer -Dversion=1.0 -Dpackaging=jar...

05/11 16:32
3
0
IKAnalyzer中文分词器

最近项目中需要用到 Lucene 做搜索,其中分词器很重要,于是就在网上找了一下关于 IKAnalyzer中文分词器的资料 ,觉得很不错就给大家分享一下。。。

2014/09/10 11:49
2.3K
0
lucene4.0与IKAnalyzer2012_u6的冲突

在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包。 一起运行之后发现异常: java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides fina...

2013/01/15 13:43
5.7K
0
lucene4.0与IKAnalyzer的冲突

在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包。 运行之后发现异常:Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKA...

2014/08/26 10:51
92
0
关于OSC项目演示平台maven的一点疑问

osc的项目演示平台,由于必须是maven项目,一些jar没有maven坐标,如IKAnalyzer2012FF_u1.jar,所以使用了scope为system,放在项目的lib目录,但是在演示平台启动后,涉及这些jar的类会编译错...

2015/04/11 08:15
108
0
lucene集成IK实现中文分词检索

接上篇,解决lucene中文分词问题。 这里采用IK分词器。 IKAnalyzer2012_u5.zip下载地址:http://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer2012_u5.zip&can=2&q= 解压...

2012/09/20 15:35
1K
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部