当前访客身份:游客 [ 登录 | 加入开源中国 ]

开源项目

当前位置:
开源软件 » 分类导航 » 程序开发 » 中文分词库

软件分类

共有57 中文分词库开源软件,第1

软件过滤: 排序: 收录时间 | 浏览数
  • 中文分词库 IKAnalyzer

    IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向J... 更多IKAnalyzer信息

    最近更新: 【每日一博】基于 IKAnalyzer 实现 Elasticsearch 中文分词插件 发布于 2年前

  • 盘古分词

    盘古分词是一个基于 .net framework 的中英文分词组件。主要功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元分词 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题 ... 更多盘古分词信息

  • Java开源中文分词器 jcseg

    Jcseg是什么? Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分词接口, Jcseg自带了一个 jcseg.properties文件用于快速... jcseg 更多jcseg信息

    最近更新: Jcseg 2.0.0 发布,自定义词库开发支持优化 发布于 1个月前

  • 中文分词库 NlpBamboo

    bamboo是一个中文语言处理系统。目前包括中文分词和词性标注部分。 bamboo提供了C,PHP,PostgreSQL的编程接口。 更多NlpBamboo信息

  • http协议中文分词 http-scws

    2011-06-26更新至2.0版 1.增加规则 2.增加词性分词 3.JSON格式返回数据 http-scws(基于scws的http协议中文分词),软件基于scws 1.1.7版本二次开发,基于libevent进行http封装,请求更简单 功能: 1.词库为文本文件方式,增加、删除更方便 2.支持gbk与utf-8... 更多http-scws信息

    最近更新: http-scws 更新,增加高频词出现的次数 发布于 3年前

  • Python 中文分词库 Yaha

    "哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能: 精确模式,将句子切成最合理的词。 全模式,所有的可能词都被切成词... 更多Yaha信息

  • Ruby中文分词器 rmmseg-cpp

    rmmseg的主要问题是性能和内存消耗。用纯ruby编写的rmmseg分词的速度非常慢,而且内存消耗非常惊人,当使用复杂分词算法的时候,内存呈线性上升的现象。为此rmmseg的作者pluskid再接再厉用C++重写了一遍rmmseg项目,这就是rmmseg-cpp。根据作者自己的简单测... 更多rmmseg-cpp信息

  • 基于深度学习的分词系统 kcws

    这是一个基于深度学习的分词系统和语料项目。 背景 97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF) 构建 安装好bazel代码构建工具,clone下来tensorflow项目代码,配置好(./configure) clone 本项目地址到tensorflow同级目录,切换到本项目代码目录... 更多kcws信息

    最近更新: kcws — 基于深度学习的分词系统 发布于 2周前

  • Python中文分词组件 jieba

    jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba"  Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式... 更多jieba信息

    最近更新: 结巴分词 0.34 发布,Python 中文分词组件 发布于 2年前

  • 中科院中文分词 ICTCLAS

    中科院ICTCLAS (FreeICTCLAS)最新free开放源代码,里面有中文分词算法,大家一起共同学习和研究,对搜索引擎中文分词方面有很大用处哦 更多ICTCLAS信息

  • 中文分词库 Paoding

    庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率... 更多Paoding信息

  • 中文分词器 mmseg4j

    1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。 2、MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向... 更多mmseg4j信息

  • 中文分词 Ansj

    Ansj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟大约100万字(速度上已经超越ictclas) 文件读取分词每秒钟大约30万字 准确率能达到96%以上 目... 更多Ansj信息

    最近更新: ansj 中文分词 5.0.1 发布 发布于 4个月前

  • 中文分词软件包 LibMMSeg

    LibMMSeg 简介 LibMMSeg 是Coreseek.com为 Sphinx 全文搜索引擎设计的中文分词软件包,其在GPL协议下发行的中文分词法,采用Chih-Hao Tsai的MMSEG算法。 MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Max... 更多LibMMSeg信息

  • Lucene中文分词库 ICTCLAS4J

    ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复杂度,旨在为广大的中文分词爱好者一个更好的学习机会。 更多ICTCLAS4J信息

  • C语言开源高性能中文分词器 friso

    Friso是使用c语言开发的一款开源的高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14.5M. 1。目前最高版... 更多friso信息

    最近更新: friso-1.6.1 发布 - C语言高性能中文分词器-检测模式切分 发布于 2年前

  • 简易中文分词系统 SCWS

    SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。 这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开, 所以如何准确而又快速的... 更多SCWS信息

  • 智能中文分词模块 imdict-chinese-analyzer

    imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中 文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供简体中文分词支持。 主要特... 更多imdict-chinese-analyzer信息

  • 中文句法分析器 ctbparser

    一个用C++实现的 中文句法分析 工具包,采用的是中文宾州树库标准(Chinese Tree Bank),并提供源代码。 可以对原始的文档(GBK编码)进行自动繁简转换,分句,分词,词性标注,依存句法分析。 该句法分析工具采用了标准的图模型算法,即最大生成树算法(pr... 更多ctbparser信息

  • 开源中文分词系统 HTTPCWS

    HTTPCWS是一款Linux下的基于HTTP协议的开源中文分词系统,采用BSD协议。 这个分词系统是对中国科学院计算技术研究所免费提供的 ICTCLAS 3.0 共享版分词后的结果,再采用逆向最大匹配算法,根据作者自己补充的一个9万条词语的自定义词库,对ICTCLAS分词结果... 更多HTTPCWS信息