阿里开源自研语音识别模型 DFSMN,准确率高达96.04%

来源: OSCHINA
编辑: h4cd
2018-06-09

近日,阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%。这一数据测试基于世界最大的免费语音识别数据库LibriSpeech。

对比目前业界使用最为广泛的LSTM模型,DFSMN模型训练速度更快、识别准确率更高。采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了3倍,语音识别速度提高了2倍。

著名语音识别专家,西北工业大学教授谢磊表示:“阿里此次开源的DFSMN模型,在语音识别准确率上的稳定提升是突破性的,是近年来深度学习在语音识别领域最具代表性的成果之一,对全球学术界和AI技术应用都有巨大影响。”

语音识别技术一直都是人机交互技术的重要组成部分。有了语音识别技术,机器就可以像人类一样听懂说话,进而能够思考、理解和反馈。近几年随着深度学习技术的使用,基于深度神经网络的语音识别系统性能获得了极大的提升,开始走向实用化。基于语音识别的语音输入、语音转写、语音检索和语音翻译等技术得到了广泛的应用。

目前主流的语音识别系统普遍采用基于深度神经网络和隐马尔可夫(Deep Neural Networks-Hidden Markov Model,DNN-HMM)的声学模型,其模型结构如图 1所示。声学模型的输入是传统的语音波形经过加窗、分帧,然后提取出来的频谱特征,如 PLP, MFCC 和 FBK等。而模型的输出一般采用不同粒度的声学建模单元,例如单音素 (mono-phone)、单音素状态、绑定的音素状态 (tri-phonestate) 等。从输入到输出之间可以采用不同的神经网络结构,将输入的声学特征映射得到不同输出建模单元的后验概率,然后再结合HMM进行解码得到最终的识别结果。

项目地址:https://github.com/tramphero/kaldi

详情见阿里技术公众号。

展开阅读全文
42 收藏
分享
加载中
精彩评论
讯飞这种98%的识别率,到后面累计误差都在20~30%,就别说识别率在96%了
2018-06-09 22:11
3
举报
别吹,讯飞语记用一下,你会失望的
2018-06-09 23:40
2
举报

引用来自“emmm0001”的评论

没记错的话,天猫精灵就是科大讯飞的方案。自家产品为什么不用自家方案呢?
天猫精灵好像用的是思必驰的
2018-06-09 15:25
1
举报
坐等讯飞股票暴跌。
2018-06-09 12:16
1
举报
最新评论 (9)
小公司拿什么和BAT比???AI的竞争最终都是极少数最顶尖人才的竞争,你有吗?国际知名的。
2020-03-20 11:58
0
回复
举报
阿里的东西一旦成熟必然收费…
2018-06-11 08:17
0
回复
举报
科大讯飞的才叫牛鼻。
2018-06-10 12:05
0
回复
举报
别吹,讯飞语记用一下,你会失望的
2018-06-09 23:40
2
回复
举报
讯飞这种98%的识别率,到后面累计误差都在20~30%,就别说识别率在96%了
2018-06-09 22:11
3
回复
举报

引用来自“emmm0001”的评论

没记错的话,天猫精灵就是科大讯飞的方案。自家产品为什么不用自家方案呢?
天猫精灵好像用的是思必驰的
2018-06-09 15:25
1
回复
举报
没记错的话,天猫精灵就是科大讯飞的方案。自家产品为什么不用自家方案呢?
2018-06-09 13:34
0
回复
举报
坐等讯飞股票暴跌。
2018-06-09 12:16
1
回复
举报
比科大讯飞好吗?
2018-06-09 09:08
0
回复
举报
更多评论
11 评论
42 收藏
分享
返回顶部
顶部