1400 小时数据,Common Voice 成最大开源人类语音数据集

h4cd
 h4cd
发布于 2019年03月05日
收藏 47

Mozilla 近日发布了其开源语音识别数据集项目 Common Voice 的最新版本,并宣布其已成为当前全球最大的人类语音数据集

Common Voice 是一个旨在创建开源语音识别数据集的项目,于 2017 年 6 月发布,它邀请来自世界各地的志愿者通过网络和移动应用程序,用他们的声音记录文本片段。Mozilla 官方表示,目前 Common Voice 数据集覆盖了 18 种不同的语言,累计有超过 42000 名贡献者录制了近 1400 小时的语音数据。

关于语音质量,Common Voice 除了语音多样性高,还可选地收集了收录者的一些具体语音信息,包括年龄、性别和口音等元数据,这可以为训练语音引擎提供强有力的支持。

数据集下载地址:https://voice.mozilla.org/data

业内普遍认为语音将成为下一个重要的技术平台,近年来随着人工智能理论与技术的迅猛发展,语音识别技术在不断突破,通过语音助手如 Alexa、Google Assistant、Siri 和 Cortana,各公司将收集到的用户语音数据归为公司自己所有,这些数据的价值或许目前很难被外界看出来,但是在信息化高度发达,特别是今天这样一个大数据和人工智能时代,为开发机器学习模型提供语音数据集怎么看都是一件有深远意义的事,这些语音数据的意义会慢慢体现。而最终当它们的价值逐渐显现,人们会发现在这背后亚马逊、谷歌、苹果和微软等公司已经牢牢锁住了语音技术的命门,主导了这场语音市场之争。

Common Voice 项目就是为了避免这样的事情而诞生的,它的目的是将收集到的语音数据集开源给公众,使得任何人都可以自由使用这些数据集来将语音识别技术智能地构建到各种应用程序和服务中。

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:1400 小时数据,Common Voice 成最大开源人类语音数据集
加载中

精彩评论

山雨欲来
山雨欲来

引用来自“gmg137”的评论

中国这么多人,竟然没有中国的。建议开源中国组织一下,搞个全国各个省市县村的方言数据集。😆
搞这个有用么?能帮助领导升官么?既然什么帮助都没有,那我们就不做。----致腐烂的国企
红薯
红薯
开源数据价值无穷
g
gmg137
中国这么多人,竟然没有中国的。建议开源中国组织一下,搞个全国各个省市县村的方言数据集。😆

最新评论(9

j717273419
j717273419
搞个毛线啊,微信和qq手上的语音媒体,拿出来吓死他们
皮皮哥-传说
皮皮哥-传说
嗯,赞同gmg137 同志,这个搞人工智能贼棒,天猫精灵挺好用的
红薯官方
红薯官方

引用来自“一砖”的评论

鹅厂表示不服~
鹅鹅鹅,曲项向天歌:我不服!~我不服~
rockrush
rockrush
41%男性,10%女性
开源中国-首席村长
开源中国-首席村长
科大讯飞O__O "…
山雨欲来
山雨欲来

引用来自“gmg137”的评论

中国这么多人,竟然没有中国的。建议开源中国组织一下,搞个全国各个省市县村的方言数据集。😆
搞这个有用么?能帮助领导升官么?既然什么帮助都没有,那我们就不做。----致腐烂的国企
g
gmg137
中国这么多人,竟然没有中国的。建议开源中国组织一下,搞个全国各个省市县村的方言数据集。😆
一砖
一砖
鹅厂表示不服~
红薯
红薯
开源数据价值无穷
返回顶部
顶部