谷歌黑科技曝光:其 AI 语音合成几乎与真人无异

周其
 周其
发布于 2017年12月29日
收藏 7

12月28日消息,据国外媒体WCCF Tech报道,谷歌表示,其最新版本的人工智能(AI)语音合成系统Tacotron 2几乎与真人声音无法区分。该系统是谷歌的第二代语音转文本技术,它有两个深层的神经网络,用于完美的输出。

第一个深度神经网络负责将文本转换成频谱图(以视觉方式呈现音频频率,通常是PDF格式),然后将这个频谱图载入到第二个深度神经网络WaveNet(来自Alphabet的AI研究实验室DeepMind)中,Wavenet读取频谱图并生成相似的音频元素。

语音转文本并不是一种新技术,对于Mac用户来说,它已经存在了相当长的一段时间。然而,谷歌声称其文本转语音技术优于大多数,几乎无法与人类声音区分开来。

对于完全相同的单词,Tacotron 2可以根据语境来发音。它还可以根据标点符号的不同而有所区分,也可以在读到大写单词的时候加重语气。

来自:cnBeta

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:谷歌黑科技曝光:其 AI 语音合成几乎与真人无异
加载中

精彩评论

kernel64
kernel64
说不定是服务器里就是蹲着一个真人

最新评论(20

rugou
rugou

引用来自“coderjinhui”的评论

科大讯飞的的确还行,但还是能听出来是机器。谷歌这个没用过,不知道有没有这么神
@coderjinhui 但是谷歌就英文的,你让他试试中文,方言。而且科大讯飞的高级产品已经在央视很多频道解说应用了。你根本听不出来
c
coderjinhui
科大讯飞的的确还行,但还是能听出来是机器。谷歌这个没用过,不知道有没有这么神
飘啊飘的瓶子
飘啊飘的瓶子

引用来自“Yamazaki”的评论

之前爆出AI合成视频,现在又是语音,那以后法庭都不能拿录音和视频当证据了?

引用来自“rugou”的评论

这些技术在科大讯飞很多年前就成熟了,记得多年前看科大讯飞的宣传,你输入一段文字,可以选择央视新闻哪个人的语音,根本分不出来。
科大讯飞 呵呵
rugou
rugou

引用来自“Yamazaki”的评论

之前爆出AI合成视频,现在又是语音,那以后法庭都不能拿录音和视频当证据了?
这些技术在科大讯飞很多年前就成熟了,记得多年前看科大讯飞的宣传,你输入一段文字,可以选择央视新闻哪个人的语音,根本分不出来。
背包旅行世界
谷歌也是厉害。
OSC_PdmImv
OSC_PdmImv

引用来自“kernel64”的评论

说不定是服务器里就是蹲着一个真人
@kernel64 真相了��
wilelm
wilelm
TTS被翻译成“语音转文本技术”了,小编转载不review一下吗
cztchoice
cztchoice

引用来自“Yamazaki”的评论

之前爆出AI合成视频,现在又是语音,那以后法庭都不能拿录音和视频当证据了?
以后会有,需求分析当前语音,视频,是合成的,还是真实的。。
l
liaoxuewei

引用来自“kernel64”的评论

说不定是服务器里就是蹲着一个真人
😆
Yamazaki
Yamazaki
之前爆出AI合成视频,现在又是语音,那以后法庭都不能拿录音和视频当证据了?
返回顶部
顶部