HanLP 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
HanLP 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
授权协议 Apache
开发语言 Java 查看源码 »
操作系统 跨平台
软件类型 开源软件
开发厂商
地区 国产
提 交 者 hankcs
适用人群 未知
收录时间 2015-03-28

软件简介

HanLP: Han Language Processing

汉语言处理包

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP 提供下列功能:

  • 中文分词 

    • 最短路分词

    • N-最短路分词

    • CRF分词

    • 索引分词

    • 极速词典分词

    • 用户自定义词典

  •   词性标注

  • 命名实体识别 

    • 中国人名识别

    • 音译人名识别

    • 日本人名识别

    • 地名识别

    • 实体机构名识别

  • 关键词提取 

    • TextRank关键词提取

  • 自动摘要 

    • TextRank自动摘要

  • 短语提取 

    • 基于互信息和左右信息熵的短语提取

  • 拼音转换 

    • 多音字

    • 声母

    • 韵母

    •  声调

  • 简繁转换 

    • 繁体中文分词

    • 简繁分歧词

  • 文本推荐 

    • 语义推荐

    • 拼音推荐

    • 字词推荐

  • 依存句法分析 

    • MaxEnt依存句法分析

    • CRF依存句法分析

  • 语料库工具 

    • 分词语料预处理

    • 词频词性词典制作

    • BiGram统计

    • 词共现统计

    • CoNLL语料预处理

    • CoNLL UA/LA/DA评测工具

在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (4)

加载中
您好,我有个词“肠道病毒Cox A16型手足口病” 这个词是一个词中间有个空格,在加扩展词(肠道病毒Cox A16型手足口病 nhd 1)的时候词性词频位置报错了,请问这种词中间带空格的咋解决啊。
05/23 10:03
回复
举报
打分: 力荐
拼音的转换,字母中文混合转换很是蛋疼
2017/11/17 10:57
回复
举报
sun.reflect.ReflectionFactory 这个类是非开放的,请教你是怎么编译通过的?
2017/06/16 10:58
回复
举报
打分: 力荐
开源的中文语料很棒!
2017/03/06 11:12
回复
举报
更多评论
发表于AI & 大数据专区
01/03 07:29

HanLP 2.0.0-alpha.0 发布,2.0 带来一系列新特性

HanLP 2.0.0-alpha.0 发布了。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便...

5
11
发表于AI & 大数据专区
01/02 07:07

HanLP 1.7.6 发布,代号“最后的武士”

HanLP 1.7.6 发布了。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自...

7
16
发表于AI & 大数据专区
2019/07/01 07:11

HanLP 1.7.4 发布,与 OpenCC 完全一致的简繁转换

HanLP 1.7.4 发布了。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自...

3
13
2019/04/21 07:17

汉语言处理包 HanLP 1.7.3 发布,常规维护版本

HanLP 1.7.3 发布了。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自...

0
27
发表于AI & 大数据专区
2018/12/24 07:55

汉语言处理包 HanLP 1.7.1 发布,缓存生成提速37倍

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,...

2
45
发表于AI & 大数据专区
2018/11/13 07:23

HanLP 1.7.0 发布,新增文本聚类、流水线分词

HanLP 1.7.0 发布了,HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自...

1
23
发表于AI & 大数据专区
2018/08/15 07:47

汉语言处理包 HanLP 1.6.7 发布,改进人名 UV 拆分

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,...

4
16
发表于AI & 大数据专区
2018/05/22 08:01

汉语言处理包 HanLP 1.6.4 发布,优化新词发现

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,...

0
12
2018/04/16 16:36

汉语言处理包 HanLP 1.6.3 发布,支持动态用户词典

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,...

3
19
发表于AI & 大数据专区
2018/04/03 10:13

汉语言处理包 HanLP 1.6.2 发布,支持简繁和索引模式

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,...

3
30
发表于AI & 大数据专区
2018/03/24 07:50

汉语言处理包 HanLP 1.6.1 发布,感知机分词性能评估

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,...

2
22
发表于AI & 大数据专区
2018/03/16 10:17

汉语言处理包 HanLP v1.6.0 发布,感知机词法分析器

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,...

4
29
发表了资讯
2017/11/17 07:46

汉语言处理包 HanLP v1.5.1,优化内存占用

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,...

0
42
发表了资讯
2017/10/23 07:52

汉语言处理包 HanLP v1.3.5,新功能、优化与维护

HanLP v1.3.5 更新内容: 大幅优化CRF分词和二阶HMM分词,重构CharacterBasedGenerativeModelSegment 自定义词典支持热更新:#563 ,ngram模型支持热加载:#580 新增一个提高用户词典优先级的开关:#633 支持98年人民日报的复合词语料格式,如"[中央/n 人民/n 广播/vn 电台/n]nt" 开放TextRank关键词提取中的最大迭代次数...

5
66
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2015/03/27 16:24

HanLP开源

支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)。HanLP: Han Language Processing汉语言处理...

0
0
发表了博客
2018/11/09 16:28

HanLP的配置及使用

HanLP的介绍主页: http://hanlp.linrunsoft.com/ HanLP的GitHub主页: https://github.com/hankcs/HanLP HanLP的具体说明讲解主页: http://www.hankcs.com/nlp/hanlp.html 项目结构图 文章来源于Jessie_Sun_ 的......

0
0
2018/10/11 15:21

hanlp安装和使用

下载HanLP-1.3.4.zip 下载hanlp-1.3.4-release 下载hanlp.properties 在https://github.com/hankcs/HanLP/releases中下载data然后覆盖HanLP-1.3.4.zip解压后的data 项目目录 测试代码: 包括中文分词,句法分析和......

0
0
发表了博客
2018/11/07 15:43

HanLP极致简繁转换

谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不...

0
0
发表了博客
2018/12/20 16:07

HanLP分词器的使用方法

前言:分析关键词 如何在一段文本之中提取出相应的关键词呢? 之前我有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包 来进行提取关键词的想法。 下载:.jar .properties data等文件 这里提供官网下载地址 HanLP下载,1.3.3数据包下载 在intellij中配置环境,...

0
0
2018/10/09 16:52

HanLP分词器的使用方法

前言:分析关键词 如何在一段文本之中提取出相应的关键词呢? 之前我有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包 来进行提取关键词的想法。 下载...

0
0
发表了博客
2019/04/24 10:27

Hanlp学习笔记

一、首先要引入mawen依赖包: <dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portable-1.7.2</version> </dependency> <dependency> <groupId>com.alibaba</groupId> <artifactId>druid</artifactId> <version>1.1.10</version> </dependency> ...

0
0
2018/11/05 14:59

中文分词利器 jieba 和 HanLP

前言 从本文开始,我们进入实战部分。首先,我们按照中文自然语言处理流程的第一步获取语料,然后重点进行中文分词的学习。中文分词有很多种,常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯...

0
0
发表了博客
2018/01/12 17:59

HanLP自定义词典注意事项

对于词典,直接加载文本会很慢,所以HanLP对于文本文件做了一些预处理,生成了后缀名为.txt.bin的二进制文件。 这些二进制文件相当于缓存,避免了每次加载去读取多个文件。 通过这种txt和bin结合的方式,HanLP一方面方便用户编辑查看词典,另一方面bin方便加载,这种方式可谓是兼二者之长,设计上堪称典范。 打开hanlp的...

0
0
发表了博客
2019/04/15 09:44

HanLP中文分词Lucene插件

基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统。 Maven <dependency> <groupId>com.hankcs.nlp</groupId> <artifactId>hanlp-lucene-plugin</artifactId> <version>1.1.6</version> </dependency> Solr快速上手 1.将hanlp-portable.jar和hanlp-lucene-plugin.jar共两个jar放入${webapp}/WEB-INF/lib...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
09/03 19:41

java中HanLP相对路径怎么使用

运行环境 java springboot项目 错误: 严重: 自定义词典/hanlp/data/dictionary/custom/CustomDictionary.txt读取错误!java.io.FileNotFoundException: \hanlp\data\dictionary\custom\CustomDictionary.txt (系统找不到指定的路径。) root=/hanlp/ 与配置文件一致都在resources目录下...

1
0
发表于AI & 大数据专区
08/10 10:20

hanlp 如何提取word或者爬取的html文章的标题,章节,段落等信息

中文分词后,得到的分词有很大的差别。如果是对一篇文章进行分词,那么分词的效果就会更差了,更别说进行对文章的标题,章节,段落的提取了

2
0
2018/07/14 12:17

Hanlp分词器的停用词无效

使用lucene测试hanlp的分词效果,发现hanlp配置的停用词根本不生效,请问有遇到过这问题的吗? hanlp的停用词 路径说是不用改 #停用词词典路径 CoreStopWordDictionaryPath=data/dictionary/stopwords.txt 我的路径也是对的,因为其余的配置没问题,但是stopwords.txt文件中 的停用词根本没有作用,lucene在创建索引库的...

1
0
发表了问答
2017/08/25 15:18

hanlp 如何快速从分词仅取出人名?

最近在学习用hanlp分词做关键词提取,但是现在有一个问题,虽然hanlp中各种功能直接调用很方便了,那么如果我需要从人名识别中仅仅提取出人名怎么操作呢? 我按照官方的示例代码,发现输出的list是人名后面带有nr标记,我应该怎么操作把人名提出来呢? java小白,多谢大神们的指教! 附上官方执行的结果: [签约/v, 仪式...

1
0
发表了问答
2017/04/21 16:00

solr搜索不到中文分词的结果

使用的hanlp分词,索引和搜索的时候都将enableIndexMode参数设为true了,分词结果如下: 全词匹配搜“中医”是可以搜出来的 全词匹配搜“中医药”就搜索不出结果 但是在term info中是可以看到这个词的 希望有大神解答此问题,在此非常感谢!

4
0
发表了问答
2016/06/30 11:49

关于hanlp分词系统的问题

hanlp中用NLPTokenizer进行分词处理,出现“英国退欧对英国”分成一个词的现象,还出现 “石化]”这种类似的现象,不知道是因为什么原因。使用的jar包是1.2.9版本的,希望能给出答复,谢谢哈!

1
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
4 评论
264 收藏
分享
返回顶部
顶部