gse 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
gse 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票

软件简介

gse 是一个 Go 语言高效分词, 支持英文、中文、日文等。

词典用双数组trie(Double-Array Trie)实现,分词器算法为基于词频的最短路径加动态规划,以及 DAG 和 HMM 算法分词。

支持 HMM 分词, 使用 viterbi 算法。

支持普通、搜索引擎、全模式、精确模式和 HMM 模式多种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。

分词速度单线程9MB/s,goroutines并发42MB/s(8核Macbook Pro)。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
发表于服务端专区
08/26 14:02

Gse v0.60.0 发布,增加 TF-IDF、停用词等功能

Go 语言高效分词, 支持英文、中文、日文等 该版本主要增加: 增加 "TF-IDF, Text rank, HMM Pos, 停用词, 清除和过滤词支持, Levenshtein" and more, 周边支持拼音和多音词, 以及 Levenshtein 等功能 增加更多示例、测试和 benchmark 代码以及修复 bug等 项目地址: https://github.com/go-ego/gse Gse v0.60.0 is releas...

0
4
发表于AI & 大数据专区
05/26 13:26

Gse v0.50.0 发布, Go 高性能分词,大幅度更新

Go 语言高效分词,支持英文、中文、日文等。 该版本主要增加:AlphaNum 拉丁字母和数字分词设置,RemoveToken,gse.New(),分词 ToLower 设置;Tirm 清除标点符号和空格,TextFreq 设置默认加载 frenquency,cutDAGNoHMM 和最短路径加动态规划配置,支持 ", " 分割字典文件等功能。 增加更多示例、测试和 benchmark 代码...

4
20
发表于软件架构专区
2019/03/13 08:08

Gse v0.40.0 发布,Go 高性能分词,增加更多常用 API

Go 语言高效分词,支持英文、中文、日文等 词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划, DAG 和 HMM (Viterbi) 算法分词, 新增 API 基本和结巴分词保持一致. 支持普通、搜索引擎、全模式、精确模式和 HMM模式多种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。...

7
46
发表于软件架构专区
2019/01/24 07:49

Gse v0.30.0 发布, Go 高性能分词, 增加 hmm 支持

Go 语言高效分词, 支持英文、中文、日文等 词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。v0.30.0 版本主要新增了 DAG 和 HMM (Viterbi) 算法分词, 新增 API 基本和结巴分词保持一致. 支持普通、搜索引擎、全模式、精确模式和 HMM模式多种分词模式,支持用户词典、词性标注,...

4
24
发表于AI & 大数据专区
2018/10/10 03:17

Go 高性能分词 Gse v0.20.0 发布, 优化性能

Go 语言高效分词, 支持英文、中文、日文等 词典用双数组trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。 支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务。 更新详情地址 package main import (     "fmt"     "github.com/go-ego/gse" ) ...

5
15
发表于AI & 大数据专区
2018/04/27 19:52

Gse v0.10.0 发布了, Go 高性能分词

Go 语言高效分词, 支持英文、中文、日文等 词典用双数组trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。 支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务。 package main import ( "fmt" "github.com/go-ego/gse" ) func main() { va...

3
27
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
09/08 09:44

携手十年Infortrend与浙江美术馆再续前缘,这一次是高性价比GSe

用户背景:浙江美术馆坐落于杭州市南山路西子湖畔,每年举办各类展览50个左右,公共教育活动近300场次,已成为大众享受公共文化服务的重要场所。2011年,浙江美术馆成为国际现当代美术馆协会成员馆。2015年,成为国家重点美术馆。 用户要求:浙江美术馆目前已拥有近2万件不同种类的美术藏品。为了适应线上和移动新媒体的...

0
0
发表了博客
2019/04/18 20:28

蓝鲸安装Agent

1. APPO 所在机器(在 app 运行所在机器) 必须能通过 ssh 登陆到 Agent 机器 2. Agent 所在机器可以访问到 zk 的端口 3. 支持 Linux/Windows/AIX 操作系统 4. Windows 服务器如果没有安装 Cygwin, 则需要开通SMB服务(网上邻居)的445端口 5. 必须使用 root/Administrator 账户 1. Windows,Windows(Cygwin) 仅支持 Admini...

0
0
发表了博客
2019/03/04 14:11

CentOS 7.5 部署蓝鲸运维平台

环境准备 官方建议 准备至少3台 CentOS 7 以上操作系统的机器 最低配置:2核4G 建议配置: 4核12G 以上 部署前关闭待安装主机之间防火墙,保证蓝鲸主机之间通信无碍 部署前关闭SELinux 系统的ulimit -n需要大于1024,建议102400以上。 NTP保持时间同步一致 检查系统的umask,建议设为0022 主机有 rsync 命令 检查系统是否有...

0
0
发表了博客
2019/10/13 22:48

GEOquery

GEOquery 是 bioconductor 项目下的一个R包 官网:http://www.bioconductor.org/packages/release/bioc/html/GEOquery.html 下载安装: if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("GEOquery") GEO 是由NCBI负责维护的一个数据库,期初是有芯...

0
0
发表了博客
05/26 17:19

全球部署,弹性伸缩,就近调度:鹅厂这款游戏服务器引擎你看怎么样?

想要游戏火爆,热度经久不衰,联机必不可少。而联机游戏对于游戏低延时、服务稳定、成本控制有很高的要求,对于研发、运维挑战很大。 腾讯游戏服务器引擎(Game Server Engine,缩写GSE),支持有状态的游戏服务部署和扩缩容,实现服务发现、高效灵活的服务器伸缩和就近调度的能力,帮助开发者快速构建稳定、低延时的多人...

0
0
发表于行业趋势专区
06/13 20:59

学学这篇免疫浸润文章和作者一样发5+分

今天跟大家分享的是2020年4月发表在Aging(IF:5.515)杂志上的一篇文章A novel immune-related genes prognosis biomarker for melanoma- associated with tumor microenvironment.在文章中作者构建了基于8个IRG......

0
0
发表了博客
05/26 17:12

全球部署,弹性伸缩,就近调度:鹅厂这款游戏服务器引擎你看怎么样?

想要游戏火爆,热度经久不衰,联机必不可少。而联机游戏对于游戏低延时、服务稳定、成本控制有很高的要求,对于研发、运维挑战很大。 腾讯游戏服务器引擎(Game Server Engine,缩写GSE),支持有状态的游戏服务部署和扩缩容,实现服务发现、高效灵活的服务器伸缩和就近调度的能力,帮助开发者快速构建稳定、低延时的多人...

0
0
发表了博客
2019/10/15 21:14

用GEOquery从GEO数据库下载数据--转载

https://www.plob.org/article/9969.html Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,甚至高通量测序数据! GEO数据库基础知识 GEO Platform (GPL) 芯片平台 GEO Sample (GSM) 样本ID号 GEO Series (GSE) study的ID号 ...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
0 评论
44 收藏
分享
返回顶部
顶部