Mozilla 开源音频数据库已成为第二大公开语音数据集

来源: 投稿
作者: 王练
2017-12-01

ZDNet 消息,Mozilla 的开源音频数据库 Common Voice 已收集了来自 20,000 个人的近 40 万个录音,整体时间已超过 500 个小时,据称这是公开发布的第二大语音数据集。

Common Voice 是 Mozilla 今年7月推出的一个大型公共数据集,并已开源。它允许用户通过 iOS 应用或网站捐赠他们的话语,提交他们自己阅读特定句子的简短音频记录。

Mozilla 新兴技术高级副总裁肖恩·怀特(Sean White)在一篇博客文章中曾表示,“商业上可用的语言服务很少的一个原因是缺乏数据。当我们开始打造语音识别系统时,我们发现我们可以在已有算法的基础上工作,并在算法方面进行一些创新。但是要想让语音识别系统真正起作用,数据的策划,创建和聚合是一个绕不开的挑战,如果你想做一个新的语音识别系统,你无法找到一个现成的高质量音频数据集。” 目前,Common Voice 收集的重点是英文,计划在2018年上半年将其扩展到其他语言。

展开阅读全文
26 收藏
分享
加载中
精彩评论
微信,陌陌等笑而不语
2017-12-01 10:01
3
举报
三大运营商一笑而过
2017-12-01 14:32
1
举报
有更简单的方法收集更多的中文语音数据集~~~花点钱的话·
2017-12-01 09:27
1
举报
最新评论 (6)

引用来自“xausky”的评论

@rugou @大漠真人 你们都有一个误区,这个数据集是有语音数据并且有对应的文字内容的,而且不管是微信还是运营商他们有语音数据,但是这些数据并没有对应文字内容。
@xausky 继续一笑而过��
2017-12-01 16:31
0
回复
举报
@rugou @大漠真人 你们都有一个误区,这个数据集是有语音数据并且有对应的文字内容的,而且不管是微信还是运营商他们有语音数据,但是这些数据并没有对应文字内容。
2017-12-01 15:21
0
回复
举报
三大运营商一笑而过
2017-12-01 14:32
1
回复
举报
然并卵
2017-12-01 11:27
0
回复
举报
微信,陌陌等笑而不语
2017-12-01 10:01
3
回复
举报
有更简单的方法收集更多的中文语音数据集~~~花点钱的话·
2017-12-01 09:27
1
回复
举报
更多评论
6 评论
26 收藏
分享
返回顶部
顶部