Go 高性能分词 Gse v0.20.0 发布, 优化性能

vz
 vz
发布于 2018年10月10日
收藏 16

Go 语言高效分词, 支持英文、中文、日文等

词典用双数组trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。

支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务。

更新详情地址

package main

import (
    "fmt"

    "github.com/go-ego/gse"
)

func main() {
    var seg gse.Segmenter
    seg.LoadDict("zh,testdata/test_dict.txt,testdata/test_dict1.txt")

    text1 := []byte("你好世界, Hello world")

    segments := seg.Segment(text1)
    fmt.Println(gse.ToString(segments))
}

Lethe River

Add

  • [NEW] Add slice() and string() func and test

  • [NEW] Add more test

  • [NEW] Optimize textSliceToString splicing speed

  • [NEW] Update LoadDict() log.Printf and optimize read dict log

  • [NEW] Add ToString() and ToSlice() default value and update test

  • [NEW] ToString and ToSlice use return not use else and update code

  • [NEW] Update sever code

  • [NEW] Add token equals() func and test

  • [NEW] Add search mode example

  • [NEW] Optimize file defer close

  • [NEW] Segment return use nil not empty array

  • [NEW] Update pkg to newest ( optimize cedar code )

  • [NEW] Update and refactoring segment test code

  • [NEW] Update dictionary and static demo

  • [NEW] Refactoring gse benchmark code

  • [NEW] Update and simplify test code

Update

  • [NEW] Update issue template more obvious

  • [NEW] Update godoc, pullrequesttemplate.md and issue_template.md

  • [NEW] Update README.md Uniform name

  • [NEW] Update godoc

  • [NEW] Update Update README.md add searchMode docs

  • [NEW] Optimize Japanese subparticipation errors

  • [NEW] Update code style and name style

  • [NEW] Update examples and benchmark code

  • [NEW] Add Travis ci go1.11 support

Fix

  • [FIX] Update examples lang fix #4

  • [FIX] Fix typo for example

  • [FIX] Fix LoadDict() godoc error

  • [FIX] Fix sub-word error

  • [FIX] Fix dict is nil segmentWords panic nil pointer

  • [FIX] Update README.md Fixed Release badge

See Commits for more details, after Apr 27.

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:Go 高性能分词 Gse v0.20.0 发布, 优化性能
加载中

最新评论(5

vz
vz

引用来自“andalousie”的评论

英文分啥词?英文的词不是本来就分开的嘛?

引用来自“kanonlemon”的评论

主要的还是对一些终止符再做一些优化

引用来自“vz”的评论

💯, 也考虑过设计字典分一堆, 但用处有限

引用来自“POMI”的评论

语音识别的英文要分词啊
会考虑加上, 等完成 HMM 后
POMI
POMI

引用来自“andalousie”的评论

英文分啥词?英文的词不是本来就分开的嘛?

引用来自“kanonlemon”的评论

主要的还是对一些终止符再做一些优化

引用来自“vz”的评论

💯, 也考虑过设计字典分一堆, 但用处有限
语音识别的英文要分词啊
vz
vz

引用来自“andalousie”的评论

英文分啥词?英文的词不是本来就分开的嘛?

引用来自“kanonlemon”的评论

主要的还是对一些终止符再做一些优化
💯, 也考虑过设计字典分一堆, 但用处有限
kanonlemon
kanonlemon

引用来自“andalousie”的评论

英文分啥词?英文的词不是本来就分开的嘛?
主要的还是对一些终止符再做一些优化
a
andalousie
英文分啥词?英文的词不是本来就分开的嘛?
返回顶部
顶部