加载中

pkuseg - 中文分词工具包

pkuseg-python:一个高准确度的中文分词工具包 pkuseg-python 简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率。 主要亮点 pkuseg 是由北京大学...

收藏 39
更新于 2019/01/10

text-classifier-collection - Java 文本分类器集合

文本分类器集合 一个强大易用的Java文本分类工具包 特色 功能全面 内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等 内...

收藏 12

NChinese - 处理中文字词的函数库

NChinese 是一套用來處理中文字詞的函式庫,使用 C# 和 C 编写。目前具備的功能,主要是反查一串中文字的注音或拼音。 安裝 使用 Nuget 套件管理員來安裝,或執行下列命令: Ins...

收藏 6

THUOCL - 清华大学开源的高质量中文词库

THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。 ...

收藏 106
更新于 2018/02/19

ChineseUtil - PHP 中文工具类库

ChineseUtil PHP 中文工具类,支持汉字转拼音、拼音分词、简繁互转。 PHP Chinese Tool class, support Chinese pinyin, pinyin p...

收藏 54
更新于 2018/12/17

FoolNLTK - 中文处理工具包

FoolNLTK 中文处理工具包 特点 可能不是最快的开源中文分词,但很可能是最准的开源中文分词 基于BiLSTM模型训练而成 包含分词,词性标注,实体识别, 都有比较高的准确率 用户自定义词典...

收藏 181
更新于 2018/03/13

gse - Go 语言高效分词

gse Go 语言高效分词, 支持英文、中文、日文等 词典用双数组trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。 支持普通和搜索引擎两种分词模式...

收藏 18
更新于 2018/10/10

dict_build - 自动构建中文词库

博文的 java 实现,可以自动抽取语料库中的词汇,可以作为自然语言处理的第一步,准备词典。 成词条件 互信息 左右熵 位置成词概率 ngram 频率 运行方法 下载或者gradle distT...

收藏 10

elasticsearch-jieba-plugin - Jieba 中文分词插件

elasticsearch-jieba-plugin 是 Jieba 中文分词插件。试用 Elasticsearch 5.1.2 版本,基于 huaban 开源的的 jieba java 实现。...

收藏 6

kcws - 基于深度学习的分词系统

这是一个基于深度学习的分词系统和语料项目。 背景 97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF) 构建 安装好bazel代码构建工具,clone下来tensorflow项目...

收藏 183
更新于 2016/11/26

Sego - Go中文分词

词典用双数组trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。 支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务。...

收藏 12

SqlJieba - MySQL 结巴中文分词插件

MySQL 结巴中文分词插件 SqlJieba 『关键词』 MySQL, 插件(Plugin), 中文分词, 结巴分词(Jieba), 全文检索(Full-Text), SqlJieba 使用方...

收藏 10

phpSplit - PHP 中文分词包

phpSplit 是一个基于php开发的中文分词库。 居于Unicode编码词典的php分词器 只适用于php5,必要函数 iconv 本程序是使用RMM逆向匹配算法进行分词的,词库需要特别编译...

收藏 15

SemanticAnalysis - 中文情感分析

快速分析语句的正负面(情感分析) 用于舆情分析、评论分析、语义分析 使用 mmseg4j 进行分词,情感词库丰富中,期待广大用户测试 使用方式: 1.自行编译src 或者直接下载dist中的zg...

收藏 42

NLPIR - 中文分词库

NLPIR (自然语言处理与信息检索共享平台)是一个强大的中文分词库,

收藏 6
开源软件作者
littleant
JFinalUIB 作者
lemann
pinyin4j 作者
xknaan
B-JUI 作者

jieba.NET - 结巴分词 .NET 版

jieba.NET 是 jieba 中文分词的 .NET 版本(C#实现)。当前版本为 0.37.1,基于 jieba 0.37,目标是提供与 jieba 一致的功能与接口,但以后可能会在 ji...

收藏 16

GoJieba - Go语言中文分词

GoJieba 是 Jieba 分词 (结巴中文分词)的 Golang 语言版本分词库。 用法 go get github.com/yanyiwu/gojieba 示例代码请见 example/...

收藏 14

es-ik - ES上使用IK中文分词器

IK中文分词器在Elasticsearch上的使用。原生IK中文分词是从文件系统中读取词典,es-ik本身可扩展成从不同的源读取词典。目前提供从sqlite3数据库中读取。es-ik-plugi...

收藏 27

cwsharp-go - go中文分词包

cwsharp-go cwsharp-go是golang的文本分词包,支持中文、英文以及中英混合词组,除此之外,提供自定义分词的扩展(比如日文、韩文或其它语种)。 .NET版:CWSharp-C...

收藏 22

CWSharp - .NET 中文分词组件

CWSharp 是 .Net 的中文分词组件,支持中英文或者混合词组,提供自定义词典功能,支持Lucene.Net。 特性 支持多种分词器 StandardTokenizer BigramTok...

收藏 14

没有更多内容

加载失败,请刷新页面

返回顶部
顶部