Yaha 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Yaha 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票

软件简介

"哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha

基本功能:

  • 精确模式,将句子切成最合理的词。
  • 全模式,所有的可能词都被切成词,不消除歧义。
  • 搜索引擎模式,在精确的基础上再次驿长词进行切分,提高召回率,适合搜索引擎创建索引。
  • 备选路径,可生成最好的多条切词路径,可在此基础上根据其它信息得到更精确的分词模式。

可用插件:

  • 正则表达式插件
  • 人名前缀插件
  • 地名后缀插件
  • 定制功能。分词过程产生4种阶段,每个阶段都可以加入个人的定制。

附加功能:

  • 新词学习功能。通过输入大段文字,学习到此内容产生的新老词语。
  • 获取大段文本的关键字。
  • 获取大段文本的摘要。
  • 支持用户自定义词典

Algorithm

  • 核心是基于查找句子的最大概率路径来进行分词。
  • 保证效率的基础上,对分词的各个阶段进行定义,方便用户添加属于自己的分词方法(默认有正则,前缀名字与后缀地名)。
  • 用户可自定义使用动态规划或Dijdstra算法得到最优的一条或多条路径,再次可根据词性(中科大ictclas的作法)等其它信息得获得最优路径。
  • 使用“最大熵”算法来实现对大文本的新词发现能力,很适合使用它来创建自定义词典,或在SNS等场合进行数据挖掘的工作。
  • 相比已存在的结巴分词,去掉了很消耗内存的Trie树结构,以及新词发现能力并不强的HMM模型(未来此模型可能当成一个备选插件加入到此模块)。

目前状态

以上提到的核心部分以及基础功能都已得到实现。不过一些细节正在实现当中,目前还未发布版本。 一些片段的代码可以从我的代码分享得到:http://www.oschina.net/code/list_by_user?id=1180874

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
暂无内容
发表于AI & 大数据专区
2013/08/19 10:44

Yaha分词库

前言 因为想弄一个小小的电影搜索站,以及想提取某一个QQ技术群聊天的关键字与自动生成关键的聊天记录的摘要,所以研究了不少分词库,以及提取关键字,自动生词,自动摘要等的算法实现。整个研究过程非常有意思,其中的一些小的代码组件可在这里得到:http://www.oschina.net/code/list_by_user?id=1180874 期间在使用W...

4
34
发表了博客
2013/08/22 22:09

Yaha分词关键字提取,自动摘要测试地址

Yaha分词关键字提取,自动摘要,搜索模式,相似度比较等测试地址。 测试地址:http://yahademo.appspot.com/ 测试地址2:http://yaha.sinaapp.com/

1
1
发表了博客
2019/06/09 14:00

NLP中几种分词库的简单使用(Python)

几种分词方法的简单使用: 一 . jieba 安装、示例 pip install jieba,jieba分词的语料是基于人民日报。 分词示例 1 import jieba 2 3 str1 ='江州市长江大桥' 4 word_object = jieba.cut(str1) # 生成一个生成器对象 5 for each in word_object: 6 print each 我要的分词结果是“江州/市长/江大桥”, 我需...

0
0
发表了博客
2013/09/06 17:48

django+haystack+whoosh+分词库=搜索站

前言 很少有朋友写相关haystack与whoosh的文章,更没有一个较好的示例。所以我把这个完整的示例开源了,希望有兴趣的同学能够交流。示例网站 解决的问题: 不同字段的优先级,比如Title比Content高。(haystack的whoosh backend默认不支持此功能) 相关性搜索(more_like_this)功能 能结合mysql数据库使用 解决中文分词...

10
12
发表了博客
2013/12/16 09:39

快速,准确的中文文本摘要实现方法

基于text_rank与numpy, sklearn提供的矩阵相关的接口,可以实现快速对大段文本摘要。

5
14
发表了博客
2013/08/30 13:55

把代码分享作个整合:就是自动获取新闻正文,自动生成摘要简介

之前代码里分享了获取网页正文,关键字提取,中文摘要等。前些天有空弄了一个新闻读取的网页,把分享的代码作个整合。功能如下: 1.google把最新的新闻或博客等内容自动发送到邮箱 2.用python读取邮箱得到新闻的链接 3.访问链接,自动读取新闻的内容,自动去掉广告等等其它信息,得到最简洁的信息。 4.用yaha分词库生成摘...

5
1
发表了博客
2019/01/03 21:35

R包和python对应的库

数据库 类别 Python R MySQL mysql-connector-python(官方) RMySQL Oracle cx_Oracle ROracle Redis redis rredis MongoDB pymongo RMongo, rmongodb neo4j py2neo RNeo4j Cassandra cassandra-driver RJDBC ODBC pyodbc RODBC JDBC 未知[Jython Only] RJDBC IO类 类别 Python R excel xlsxWriter, pandas.(from/to)_ex...

0
0
发表了博客
2018/07/11 13:52

Python 和 R 数据分析/挖掘工具互查

写在前面 在此总结一些在数据分析/挖掘中可能用到的功能,方便大家索引或者从一种语言迁移到另一种。当然,这篇博客还会随时更新(不会另起一篇,为了方便大家索引),请大家如果有需要收藏到书签中。 如果大家还知道哪些常用的命令,也可以在评论中回复我。我可以添加进来,方便更多地人更方便的检索。也希望大家可以转...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2014/05/11 12:33

你好,yaha的示例中的关键字提取和自动摘要是怎么实现的?

@余争 你好,想跟你请教个问题:yaha的示例中的关键字提取和自动摘要是怎么实现的?关键字提取只是统计了分词后的词的数量吗? 使用了一下http://yaha.sinaapp.com/,感觉效果很好,这个网站的源代码是开放的吗?如果开放可以从哪里下载?

3
0
发表了问答
2014/04/26 09:34

yaha 不知道怎么使用!!

@余争 你好,想跟你请教个问题: 您好 不知道你这个工具怎么使用 菜鸟一枚 要运行那个文件 要把待处理的文件放到哪里?

2
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
0 评论
75 收藏
分享
返回顶部
顶部