加载中

Simple tokenizer - 支持中文和拼音搜索的 SQLite fts5 插件

simple 是一个支持中文和拼音的 sqlite3 fts5 拓展。它完整提供了 微信移动端的全文检索多音字问题解决方案 一文中的方案四,非常简单和高效地支持中文及拼音的搜索。 实现相关介绍:...

收藏 1

ideaseg - 基于 NLP 的中文分词器

ideaseg 是一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser...

收藏 18
更新于 2023/10/10

wordfilter - 敏感词过滤工具

wordfilter 是一个用 DFA 算法实现的敏感词过滤工具,支持 Skip 参数控制敏感词干扰噪音,支持白名单跳过白名单词汇,支持在线添加和删除敏感词,管理敏感词库。 API 预览 敏感词...

收藏 18

VicWord - PHP 分词库

VicWord 一个纯php的分词 安装 composer require lizhichao/word 分词说明 含有3种切分方法 getWord 长度优先切分 。最快 getShortWor...

收藏 22
更新于 2020/04/05

pkuseg - 中文分词工具包

pkuseg-python:一个高准确度的中文分词工具包 pkuseg-python 简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率。 主要亮点 pkuseg 是由北京大学...

收藏 58
更新于 2019/01/10

text-classifier-collection - Java 文本分类器集合

text-classifier-collection 是一个文本分类器集合。一个强大易用的Java文本分类工具包 特色 功能全面 内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取...

收藏 19

NChinese - 处理中文字词的函数库

NChinese 是一套用來處理中文字詞的函式庫,使用 C# 和 C 编写。目前具備的功能,主要是反查一串中文字的注音或拼音。 安裝 使用 Nuget 套件管理員來安裝,或執行下列命令: I...

收藏 14

THUOCL - 清华大学开源的高质量中文词库

THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。 ...

收藏 114
更新于 2018/02/19

ChineseUtil - PHP 中文工具类库

ChineseUtil PHP 中文工具类,支持汉字转拼音、拼音分词、简繁互转。 PHP Chinese Tool class, support Chinese pinyin, pinyin p...

收藏 60
更新于 2018/12/17

FoolNLTK - 中文处理工具包

FoolNLTK 中文处理工具包 特点 可能不是最快的开源中文分词,但很可能是最准的开源中文分词 基于BiLSTM模型训练而成 包含分词,词性标注,实体识别, 都有比较高的准确率 用户自定义词典...

收藏 187
更新于 2018/03/13

gse - Go 语言高效分词

gse 是一个 Go 语言高效分词, 支持英文、中文、日文等。 词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划, 以及 DAG 和 ...

收藏 44
更新于 2020/08/26

dict_build - 自动构建中文词库

博文的 java 实现,可以自动抽取语料库中的词汇,可以作为自然语言处理的第一步,准备词典。 成词条件 互信息 左右熵 位置成词概率 ngram 频率 运行方法 下载或者gradle distT...

收藏 15

elasticsearch-jieba-plugin - Jieba 中文分词插件

elasticsearch-jieba-plugin 是 Jieba 中文分词插件。试用 Elasticsearch 5.1.2 版本,基于 huaban 开源的的 jieba java 实现。...

收藏 8

kcws - 基于深度学习的分词系统

这是一个基于深度学习的分词系统和语料项目。 背景 97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF) 构建 安装好bazel代码构建工具,clone下来tensorflow项目...

收藏 188
更新于 2016/11/26

Sego - Go 中文分词

词典用双数组trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。 支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务。...

收藏 16
开源软件作者
RoadFlow 作者
ClsCreator 作者
rbatis-generator 作者

SqlJieba - MySQL 结巴中文分词插件

MySQL 结巴中文分词插件 SqlJieba 『关键词』 MySQL, 插件(Plugin), 中文分词, 结巴分词(Jieba), 全文检索(Full-Text), SqlJieba 使用方...

收藏 14

phpSplit - PHP 中文分词包

phpSplit 是一个基于php开发的中文分词库。 居于Unicode编码词典的php分词器 只适用于php5,必要函数 iconv 本程序是使用RMM逆向匹配算法进行分词的,词库需要特别编译...

收藏 19

SemanticAnalysis - 中文情感分析

快速分析语句的正负面(情感分析) 用于舆情分析、评论分析、语义分析 使用 mmseg4j 进行分词,情感词库丰富中,期待广大用户测试 使用方式: 1.自行编译src 或者直接下载dist中的zg...

收藏 47

NLPIR - 中文分词库

NLPIR (自然语言处理与信息检索共享平台)是一个强大的中文分词库,

收藏 9

jieba.NET - 结巴分词 .NET 版

jieba.NET 是 jieba 中文分词的 .NET 版本(C#实现)。当前版本为 0.37.1,基于 jieba 0.37,目标是提供与 jieba 一致的功能与接口,但以后可能会在 ji...

收藏 22

没有更多内容

加载失败,请刷新页面

返回顶部
顶部