HanLP 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
HanLP 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
HanLP 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
开发语言 Java 查看源码 »
操作系统 跨平台
软件类型 开源软件
开源组织
地区 国产
投 递 者 hankcs
适用人群 未知
收录时间 2015-03-28

软件简介

HanLP: Han Language Processing

汉语言处理包

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP 提供下列功能:

  • 中文分词 

    • 最短路分词

    • N-最短路分词

    • CRF分词

    • 索引分词

    • 极速词典分词

    • 用户自定义词典

  •   词性标注

  • 命名实体识别 

    • 中国人名识别

    • 音译人名识别

    • 日本人名识别

    • 地名识别

    • 实体机构名识别

  • 关键词提取 

    • TextRank关键词提取

  • 自动摘要 

    • TextRank自动摘要

  • 短语提取 

    • 基于互信息和左右信息熵的短语提取

  • 拼音转换 

    • 多音字

    • 声母

    • 韵母

    •  声调

  • 简繁转换 

    • 繁体中文分词

    • 简繁分歧词

  • 文本推荐 

    • 语义推荐

    • 拼音推荐

    • 字词推荐

  • 依存句法分析 

    • MaxEnt依存句法分析

    • CRF依存句法分析

  • 语料库工具 

    • 分词语料预处理

    • 词频词性词典制作

    • BiGram统计

    • 词共现统计

    • CoNLL语料预处理

    • CoNLL UA/LA/DA评测工具

在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(4) 发布并加入讨论🔥
发表了资讯
2023/03/01 07:19

HanLP 1.8.4 发布,常规维护

HanLP 1.8.4 现已发布。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 新版本具体更新内容如下: 将<>视作分隔符 fix https://...

0
6
发表了资讯
2022/02/22 07:06

HanLP 1.8.3 发布,常规维护

HanLP 1.8.3 现已发布。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 新版本具体更新内容如下: 修复动态自定义词典与CustomD...

1
1
发表了资讯
2021/06/20 07:52

HanLP 1.8.2 发布,常规维护与修复

HanLP 1.8.2 现已发布。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 新版本具体更新内容如下: 调整公式,维特比分词准确率从...

1
6
发表了资讯
2020/01/03 07:29

HanLP 2.0.0-alpha.0 发布,2.0 带来一系列新特性

HanLP 2.0.0-alpha.0 发布了。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 HanLP 2.0 结合了具有深度学习和大量未标记语料库的...

5
11
发表了资讯
2020/01/02 07:07

HanLP 1.7.6 发布,代号“最后的武士”

HanLP 1.7.6 发布了。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 此版本代号为“最后的武士”,寓意这是旧的十年里最后一次更...

7
16
发表了资讯
2019/07/01 07:11

HanLP 1.7.4 发布,与 OpenCC 完全一致的简繁转换

HanLP 1.7.4 发布了。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 此版本更新内容: 无损转换OpenCC词典,结果一致 https://...

3
13
发表了资讯
2019/04/21 07:17

汉语言处理包 HanLP 1.7.3 发布,常规维护版本

HanLP 1.7.3 发布了。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 新版更新内容: 感知机词法分析器默认使用98年人民日报6个月...

0
26
发表了资讯
2018/12/24 07:55

汉语言处理包 HanLP 1.7.1 发布,缓存生成提速37倍

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 HanLP v1.7.1 更新内容: 新增可自定义用户词典的维特比分词器 @AnyListen 利用 ...

2
43
发表了资讯
2018/11/13 07:23

HanLP 1.7.0 发布,新增文本聚类、流水线分词

HanLP 1.7.0 发布了,HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 更新如下: 新增文本聚类模块(k-means和repeated bisectio...

1
22
发表了资讯
2018/08/15 07:47

汉语言处理包 HanLP 1.6.7 发布,改进人名 UV 拆分

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 HanLP v1.6.7 更新内容: 默认感知机分词模型训练自 MSRA Named Entity Corpus 词...

4
16
发表了资讯
2018/05/22 08:01

汉语言处理包 HanLP 1.6.4 发布,优化新词发现

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 HanLP v1.6.4 更新内容: 优化 CorpusLoader、优化 MutableFeatureMap 的设计 优...

0
11
发表了资讯
2018/04/16 16:36

汉语言处理包 HanLP 1.6.3 发布,支持动态用户词典

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 HanLP v1.6.3 更新内容: 分析器的词法请立即获取iTunes CustomDictionary.inser...

3
19
发表了资讯
2018/04/03 10:13

汉语言处理包 HanLP 1.6.2 发布,支持简繁和索引模式

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 HanLP v1.6.2 更新内容: 所有词法分析器都支持用户词典、简繁、offset 与全切分...

3
30
发表了资讯
2018/03/24 07:50

汉语言处理包 HanLP 1.6.1 发布,感知机分词性能评估

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 HanLP v1.6.1 是一个常规维护版本,更新内容: 感知机分词性能评估、修正感知机词...

2
22
发表了资讯
2018/03/16 10:17

汉语言处理包 HanLP v1.6.0 发布,感知机词法分析器

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 HanLP v1.6.0 更新内容: 《基于感知机的中文分词、词性标注与命名实体识别框架》...

4
29
发表了资讯
2017/11/17 07:46

汉语言处理包 HanLP v1.5.1,优化内存占用

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。 HanLP v1.5.1 更新内容: 优化新词发现模块的内存占用:#667 word2vec 优化,修复...

0
42
发表了资讯
2017/10/23 07:52

汉语言处理包 HanLP v1.3.5,新功能、优化与维护

HanLP v1.3.5 更新内容: 大幅优化CRF分词和二阶HMM分词,重构CharacterBasedGenerativeModelSegment 自定义词典支持热更新:#563 ,ngram模型支持热加载:#580 新增一个提高用户词典优先级的开关:#633 支持98年人民日报的复合词语料格式,如"[中央/n 人民/n 广播/vn 电台/n]nt" 开放TextRank关键词提取中的最大迭代次数参数:#577 为Term添加equal方法 TextRankKeyword 提取窗口相近词的强化 文本摘要方法支持自定义句子分隔符...

5
66
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
4 评论
273 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部