Ansj 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Ansj 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
Ansj 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
Ansj 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
Ansj 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发中文分词库
开源组织
地区 国产
投 递 者 ansj
适用人群 未知
收录时间 2012-09-06

软件简介

Ansj中文分词

这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化

内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)

文件读取分词每秒钟大约30万字

准确率能达到96%以上

目前实现了.中文分词. 中文姓名识别 . 用户自定义词典

可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.

如果你第一次下载只想测试测试效果可以调用这个简易接口

  String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
 System.out.println(ToAnalysis.paser(str));
 
 [欢迎/, 使用/, ansj/, _/, seg/, ,/, (/, ansj/, 中文/, 分词/, )/, 在/, 这里/, 如果/, 你/, 遇到/, 什么/, 问题/, 都/, 可以/, 联系/, 我/, 房/, 我/, 一定/, 尽/, 我/, 所/, 能/, ./, 帮助/, 大家/, ./, ansj/, _/, seg/, 更/, 快/, ,/, 更/, 准/, ,/, 更/, 自由/, !/]

这是一个简单的分词效果,你可以在test目录中找到他.当然.个别奇异性的处理无法代表整体分词.仅做参考

[脚下/f, 的/uj, 一大/j, 块/q, 方砖/n, 地面/n]
[长春/ns, 市长/n, 春节/t, 讲话/n]
[结婚/v, 的/uj, 和/c, 尚未/d, 结婚/v, 的/uj]
[结合/v, 成/v, 分子/n, 时/ng]
[旅游/vn, 和/c, 服务/vn, 是/v, 最/d, 好/a, 的/uj]
[邓颖/nr, 超生/v, 前/f, 最/d, 喜欢/v, 的/uj, 一个/m, 东西/n]
[中国/ns, 航天/n, 官员/n, 应邀/v, 到/v, 美国/ns, 与/p, 太空/s, 总署/n, 官员/n, 开会/v]
[上海/ns, 大学城/n, 书店/n]
[北京/ns, 大/a, 学生/n, 前来/v, 应聘/v]
[中外/j, 科学/n, 名著/n]
[为/p, 人民/n, 服务/vn]
[独立自主/i, 和/c, 平等互利/l, 的/uj, 原则/n]
[为/p, 人民/n, 办/v, 公益/n]
[这/r, 事/n, 的/uj, 确定/v, 不/d, 下来/v]
[费孝/nr, 通向/v, 人大常委会/nt, 提交/v, 书面/b, 报告/n]
[aaa/en, 分/q, 事实上/l, 发货/v, 丨/null, 和/c, 无/v, 哦/e, 喝/vg, 完/v, 酒/n]
[不好意思/a, 清清爽爽/z]
[长春市/ns, 春节/t, 讲话/n]
[中华人民共和国/ns, 万岁/n, 万岁/n, 万万岁/n]
[检察院/n, 鲍绍/nr, 检察长/n, 就是/d, 在/p, 世/ng, 诸葛/nr, ./m, 像/v, 诸葛亮/nr, 一样/u, 聪明/a]
[长春市/ns, 长春/ns, 药店/n]
[乒乓球拍/n, 卖/v, 完/v, 了/ul]
[计算机/n, 网络管理员/n, 用/p, 虚拟机/userDefine, 实现/v, 了/ul, 手机/n, 游戏/n, 下载/v, 和/c, 开源/v, 项目/n, 的/uj, 管理/vn, 金山/nz, 毒霸/nz]
[长春市/ns, 长春/ns, 药店/n]
[胡锦涛/nr, 与/p, 神/n, 九/m, 航天员/n, 首次/m, 实现/v, 天地/n, 双向/d, 视频/n, 通话/v]
[mysql/en, 不/d, 支持/v,  /null, 同台/v, 机器/n, 两个/m, mysql/en, 数据库/n, 之间/f, 做/v, 触发器/n]
[孙建/nr, 是/v, 一个/m, 好/a, 人/n, ./m, 他/r, 和/c, 蔡晴/nr, 是/v, 夫妻/n, 两/m,  /null, ,/null, 对于/p, 每/r, 一本/m, 好书/n, 他/r, 都/d, 原意/n, 一一/d, 读取/v, ../m, 他们/r, 都/d, 很/d, 喜欢/v, 元宵/n, ./m, 康燕/nr, 和/c, 他们/r, 住/v, 在/p, 一起/s, ./m, 我/r, 和/c, 马春亮/nr, ,/null, 韩鹏飞/nr, 都/d, 是/v, 好/a, 朋友/n, ,/null, 不/d, 知道/v, 什么/r, 原因/n]
[一年/m, 有/v, 三百六十五个/m, 日出/v,  /null, 我/r, 送/v, 你/r, 三百六十五个/m, 祝福/vn,  /null, 时钟/n, 每天/r, 转/v, 了/ul, 一千四百四十圈/m, 我/r, 的/uj, 心/n, 每天/r, 都/d, 藏/v, 着/uz,  /null, 一千四百四十多个/m, 思念/v,  /null, 每/r, 一天/m, 都/d, 要/v, 祝/v, 你/r, 快快乐乐/z,  /null,  /null, 每/r, 一分钟/m, 都/d, 盼望/v, 你/r, 平平安安/z,  /null, 吉祥/n, 的/uj, 光/n, 永远/d, 环绕/v, 着/uz, 你/r,  /null, 像/v, 那/r, 旭日东升/l, 灿烂/a, 无比/z,  /null]
[学校/n, 学费/n, 要/v, 一次性/d, 交/v, 一千元/m]
[发展/vn, 中国/ns, 家庭/n, 养猪/v, 事业/n]
[安徽省/ns, 是/v, 一个/m, 发展/vn, 中/f, 的/uj, 省/n]
[北京理工大学/nt, 办事处/n]


展开阅读全文

代码

评论 (2)

加载中
打分: 力荐
请问怎样才能用于android开发呢
2017/04/28 00:43
回复
举报
证明2014年02月05日12时23分在周浦镇里仁村6组横桥路上,被分成了 证明 2014年 02月 05日 12 时 23分 在 周浦镇里仁村 6组 横桥 路上 ,先不说地址识别,时间应该是:2014年02月05日12时23分,感觉实体识别还是不靠谱 #Ansj#
2015/11/05 18:35
回复
举报
更多评论
发表了资讯
2016/07/30 00:00

ansj 中文分词 5.0.1 发布

ansj中文分词是一个完全开源的,基于google语义模型+条件随机场模型的中文分词的java实现.具有使用简单开箱即用等特点。分词速度达到每秒钟大约100万字左右(mac air下测试),准确率能达到96%以上. 更新内容: 需改歧义词典的格式,修复%作为量词存在 对新词的新词发现提供了词性分析功能,不再词性全部标注为nw 重新训练新词发现模型,针对机构名做了大量调优, 测试地址:http://www.nlpcn.org/demo.jsp...

1
68
发表了资讯
2016/04/25 00:00

基于 Ansj 的 elasticsearch 2.3.1 中文分词插件

前言 这是一个elasticsearch的中文分词插件,基于Ansj中文分词。发起者Onni大神。 2.3.1插件安装 进入Elasticsearch目录运行如下命令 进入es目录执行如下命令 ./bin/plugin install http://maven.nlpcn.org/org/ansj/elasticsearch-analysis-ansj/2.3.1/elasticsearch-analysis-ansj-2.3.1-release.zip 更新内容 elasticsearch更新2.3.1 ansj_seg升级至3.7.3 elasticsearch更新2.1.1 ansj_seg升级至3.5 新增http的_ansj接口,...

9
58
发表了资讯
2014/05/13 00:00

Ansj 中文分词 1.41 发布

ansj中文分词是一个完全开源的,基于google语义模型+条件随机场模型的中文分词的java实现.具有使用简单开箱即用等特点。分词速度达到每秒钟大约100万字左右(mac air下测试),准确率能达到96%以上 源码下载 https://github.com/ansjsun/ansj_seg/ 文档说明 http://ansjsun.github.io/ansj_seg/ 在线演示 http://demo.ansj.org/page/index.html 联系作者 http://weibo.com/ansjsun Ansj 中文分词 1.41 版本发布, 新增功能 增加了...

4
67
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2018/10/12 11:12

ansj

Ansj中文分词使用教程 Ansj中文分词使用教程:https://blog.csdn.net/a822631129/article/details/52331202 ansj分词史上最详细教程:https://blog.csdn.net/bitcarmanlee/article/details/53607776 摘要: ansj是一个基于n-Gram+CRF+HMM的中文分词的java实现. ansj分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 Ansj目前实现了.中文分词.词性识别. 中文姓名识别 . 用户自定义词典,关键字提取,自动...

0
0
发表了博客
2020/05/21 17:10

Ansj中文分词

https://github.com/NLPchina/ansj_seg Mark一下

0
0
发表了博客
2018/10/18 19:43

ansj分词原理

ansj第一步会进行原子切分和全切分,并且是在同时进行的。所谓原子,是指短句中不可分割的最小语素单位。例如,一个汉字就是一个原子。 全切分,就是把一句话中的所有词都找出来,只要是字典中有的就找出来。例如,“提高中国人生活水平”包含的词有:提高、高中、中国、国人、人生、生活、活水、水平。接着以“提高中国人生活水平”为例,调用ansj标准分词: String str = "提高中国人生活水平" ; Result result = ToAnalysis...

0
0
2014/11/07 17:15

Solr4.10和ANSJ 中文分词集成

1. 具体代码 1.1 ANSJTokenizerFactory 工厂类 package org.ansj.solr; import org.apache.lucene.analysis.util.TokenizerFactory; import org.apache.lucene.util.AttributeFactory; import java.io.IOException; import java.io.Reader; import java.util.Map; public class ANSJTokenizerFactory extends TokenizerFactory {   private ThreadLocal<ANSJTokenizer> tokenizerLocal = new ThreadLocal<A...

0
2
发表了博客
2019/03/25 20:19

ansj分词器使用记录

//最简单实例 String ruiec = “分词测试123456100名”; //剔除指定的分词 s.insertStopWords("100名"); //剔除标点符号(w) s.insertStopNatures("w"); //删除指定字 s.insertStopRegexes("请.*?"); String result1=ToAnalysis.parse(ruiec).recognition(s).toStringWithOutNature().replaceAll(","," "); System...

0
0
发表了博客
2019/05/09 14:50

基于ansj_seg的分词实现

  ansj_seg,常用的分词工具,基于Java,简单好用   依赖   mvn依赖如下: <dependency> <groupId>org.ansj</groupId> <artifactId>ansj_seg</artifactId> <version>5.1.6</version> </dependency>   代码实例   个人做了简单封装,仅供参考 /** * 获取分词后 词组集合 * @param sequence * @return */ public static List<Str...

0
0
2018/06/07 10:42

ANSJ 分词 用户自定义分词加载顺序

ToAnalysis 精准分词 精准分词是Ansj分词的店长推荐款 它在易用性,稳定性.准确性.以及分词效率上.都取得了一个不错的平衡.如果你初次尝试Ansj如果你想开箱即用.那么就用这个分词方式是不会错的. DicAnalysis 用户自定义词典优先策略的分词 用户自定义词典优先策略的分词,如果你的用户自定义词典足够好,或者你的需求对用户自定义词典的要求比较高,那么强烈建议你使用DicAnalysis的分词方式. 可以说在很多方面Dic优于ToAnalysis的...

0
2
2019/06/21 13:31

Ansj与hanlp分词工具对比

一、Ansj 1、利用DicAnalysis可以自定义词库: 2、但是自定义词库存在局限性,导致有些情况无效: 比如:“不好用“的正常分词结果:“不好,用”。 (1)当自定义词库”好用“时,词库无效,分词结果不变。 (2)当自定义词库 “不好用”时,分词结果为:“不好用”,即此时自定义词库有效。 3、由于版本问题,可能DicAnalysis, ToAnalysis等类没有序列化,导致读取hdfs数据出错 此时需要继承序列化接口 1|case class myAnaly...

0
0
发表了博客
2019/06/21 13:33

Ansj与hanlp分词工具对比

一、Ansj 1、利用DicAnalysis可以自定义词库: 2、但是自定义词库存在局限性,导致有些情况无效: 比如:“不好用“的正常分词结果:“不好,用”。 (1)当自定义词库”好用“时,词库无效,分词结果不变。 (2)当自定义词库 “不好用”时,分词结果为:“不好用”,即此时自定义词库有效。 3、由于版本问题,可能DicAnalysis, ToAnalysis等类没有序列化,导致读取hdfs数据出错 此时需要继承序列化接口 1|case class myAnaly...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2017/01/17 11:49

关于ansj的API文档

@ansj 你好,想跟你请教个问题:从哪可以获得ansj的API文档

1
0
发表了问答
2014/09/06 14:18

请问中英文混合分词相关问题

@lite0505 @ansj 请问ansj支持中英文混合分词吗?它的自定义词典是否可以达到中英文分词? 请问中英文混合分词有什么技术吗!

5
0
发表了问答
2014/08/14 13:58

ansj 分词 找不到class

@ansj 你好,想跟你请教个问题: 我下载的是 都是最新的: Exception in thread "main" java.lang.NoClassDefFoundError: org/nlpcn/commons/lang/dat/Item 是不是不用这个jar包了?

1
0
发表了问答
2014/04/16 16:46

如何批量删除自定义词典?

@ansj 你好,想跟你请教个问题: 我的自定义词典是放在数据库中,查找出来后通过UserDefineLibrary.insertWord一个一个添加。 现在自定义词典出现变化得重新加载,那么我要将旧的自定义词典先删除,看了文档说是需要使用UserDefineLibrary.removeWord,但是我现在连关键字都不知道要怎么删除呢?有没有类似clear或reset之类的功能,将自定义词典全部删除?...

7
0
发表了问答
2014/04/15 14:37

使用 Ansj 报错 java.lang.OutOfMemeryError

@ansj 你好,想跟你请教个问题: 我除了加大JVM内存外还有其它方式吗?

8
0
发表了问答
2014/03/27 20:55

ansj如何安装?新手求支招啊

我是一名新手,希望大神能图文并茂地演示一下ansj的安装过程

2
0
发表了问答
2012/11/15 11:48

Ansj分词中stopwords.dic如何使用

@ansj 你好,想跟你请教个问题:请Ansj分词中stopwords.dic如何使用呢?我想自己扩充的话,可以吗?

3
0
发表了问答
2013/11/11 15:08

Ansj分词是否完全免费使用

@ansj 你好,想跟你请教个问题:请问Ansj这款分词工具目前是免费的吗?我们打算把ictclas4j撤下来换成这款,感谢分享!

1
0
发表了问答
2013/07/23 15:23

请问提取关键字的原理是什么?

请问提取关键字的原理是什么?根据词性?文档tf/idf做什么用呢? 我如何定义自己的关键字词库,比如我需要提取的内容是IT类的信息,我自己有一个IT类的词库,如何加载来提取关键字呢?

6
4
发表了问答
2013/03/25 13:43

请教自定义词库的问题

@ansj 你好,想跟你请教个问题:1.分词时,如何设置以用户自定义词库优先?用户自定义词库出现了跟系统词库相关的词,但词性不一样,在分词时能输出自定义的词性么?2.自定义词库对字母开头的词组支持不太好,有些不能正常识别,比如“UC浏览器”

1
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
2 评论
138 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部