英语词干提取工具 Stemmer

MIT
跨平台
2016-07-21
开源中国股瞎

Stemmer是一款英语词干(stemming)提取工具,采用Elixir开发。

使用示例:

Stemmer.stem("capabilities")                    # => "capabl"
Stemmer.stem("extraordinary capabilities")      # => "extraordinari capabl"
Stemmer.stem(["extraordinary", "capabilities"]) # => ["extraordinari", "capabl"]
的码云指数为
超过 的项目
加载中

评论(0)

暂无评论

暂无资讯

暂无问答

ES中的分词器

一、概念介绍 全文搜索引擎会用某种算法对要建索引的文档进行分析, 从文档中提取出若干Token(词元), 这些算法称为Tokenizer(分词器), 这些Token会被进一步处理, 比如转成小写等, 这些处...

2014/05/06 09:16
8.5K
2
ES 分词笔记

stop words 比如“Web”一词几乎在每个网站上均会出现,对这样的词搜索引擎无 法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率;2、这类就更多了,包括了语...

2015/10/25 03:20
571
0
Elasticsearch Analyzer 的内部机制

1 本文将介绍各种 Analyzer,以及他们各种的应用场景。 涉及到的概念 Character filter Tokenizer Token filter Analyzer Term query Analyzer 一般由三部分构成,character filters、token...

2017/07/29 10:58
379
0
裸心es搜索,拼音搜索

裸心es搜索,拼音搜索

2018/02/10 00:10
79
0
Elasticsearch 2.2.0 分词篇:分析模块

在Elasticsearch中,索引分析模块是可以通过注册分词器(Analyzer)来进行配置。分词器的作用是当一个文档被索引的时候,分词器从文档中提取出若干词元(Token)来支持索引的存储和搜索。分词器是...

2016/02/19 10:28
710
1
StringToWorkVector

其实我也不知道这个fileter是干什么的。我只是想看看,写在这是为了以后用到的时候方便,这里没有我的理解,直接翻译的,又我的翻译水不平,所以请绕道,不要看,以免误扰你。 简介 我没搞懂...

2012/09/09 09:35
56
0
NLP常用工具

自然语言处理?

2014/09/06 21:44
174
0
NLP常用工具

NLP常用工具 各种工具包的有效利用可以使研究者事半功倍。 以下是NLP版版友们提供整理的NLP研究工具包。 同时欢迎大家提供更多更好用的工具包,造福国内的NLP研究。 *NLP Toolbox CLT http:...

2013/09/06 21:08
314
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部