DevOps研发效能
媒体矩阵
开源中国APP
授权协议 Apache
开发语言 Google Go
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发中文分词库
开源组织
地区 国产
投 递 者 不详
适用人群 未知
收录时间 2017-11-17

软件简介

gse 是一个 Go 语言高效分词, 支持英文、中文、日文等。

  • 词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划, 以及 DAG 和 HMM 算法分词.
  • 支持 HMM 分词, 使用 viterbi 算法。
  • 支持普通、搜索引擎、全模式、精确模式和 HMM 模式多种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务
  • 分词速度单线程 9.2MB/s,goroutines 并发 26.8MB/s. HMM 模式单线程分词速度 3.2MB/s.( 双核 4 线程 Macbook Pro)。
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣 发布并加入讨论🔥
发表了资讯
2020/08/26 14:02

Gse v0.60.0 发布,增加 TF-IDF、停用词等功能

Go 语言高效分词, 支持英文、中文、日文等 该版本主要增加: 增加 "TF-IDF, Text rank, HMM Pos, 停用词, 清除和过滤词支持, Levenshtein" and more, 周边支持拼音和多音词, 以及 Levenshtein 等功能 增加更多示例、测试和 benchmark 代码以及修复 bug等 项目地址: https://github.com/go-ego/gse Gse v0.60.0 is released, Go text segmentation and NLP; Add "TF-IDF, Text rank, HMM, Stop word, Trim/filter word, Levensht...

0
4
发表了资讯
2020/05/26 13:26

Gse v0.50.0 发布, Go 高性能分词,大幅度更新

Go 语言高效分词,支持英文、中文、日文等。 该版本主要增加:AlphaNum 拉丁字母和数字分词设置,RemoveToken,gse.New(),分词 ToLower 设置;Tirm 清除标点符号和空格,TextFreq 设置默认加载 frenquency,cutDAGNoHMM 和最短路径加动态规划配置,支持 ", " 分割字典文件等功能。 增加更多示例、测试和 benchmark 代码, 修复 bug。 项目地址:https://github.com/go-ego/gse Nisqually Glacier Add add alphanum split words ...

4
20
发表了资讯
2019/03/13 08:08

Gse v0.40.0 发布,Go 高性能分词,增加更多常用 API

Go 语言高效分词,支持英文、中文、日文等 词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划, DAG 和 HMM (Viterbi) 算法分词, 新增 API 基本和结巴分词保持一致. 支持普通、搜索引擎、全模式、精确模式和 HMM模式多种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。 项目地址: https://github.com/go-ego/gse Snake River Add [NEW] Add more common APIs and more example...

7
45
发表了资讯
2019/01/24 07:49

Gse v0.30.0 发布, Go 高性能分词, 增加 hmm 支持

Go 语言高效分词, 支持英文、中文、日文等 词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。v0.30.0 版本主要新增了 DAG 和 HMM (Viterbi) 算法分词, 新增 API 基本和结巴分词保持一致. 支持普通、搜索引擎、全模式、精确模式和 HMM模式多种分词模式,支持用户词典、词性标注,可运行JSON RPC服务。 更新详情和项目地址: gse package mainimport (    "fmt"     "github...

4
22
发表了资讯
2018/10/10 03:17

Go 高性能分词 Gse v0.20.0 发布, 优化性能

Go 语言高效分词, 支持英文、中文、日文等 词典用双数组trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。 支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务。 更新详情地址 package main import (     "fmt"     "github.com/go-ego/gse" ) func main() {     var seg gse.Segmenter     seg.LoadDict("zh,testdata/test_dict.txt...

5
14
发表了资讯
2018/04/27 19:52

Gse v0.10.0 发布了, Go 高性能分词

Go 语言高效分词, 支持英文、中文、日文等 词典用双数组trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。 支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务。 package main import ( "fmt" "github.com/go-ego/gse" ) func main() { var seg gse.Segmenter seg.LoadDict("zh,testdata/test_dict.txt,testdata/test_dict1.txt") text1 ...

3
27
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
44 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部