VALL-E X 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
VALL-E X 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
VALL-E X 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 MIT
开发语言 Python
操作系统 跨平台
软件类型 开源软件
开源组织
地区 不详
投 递 者 白开水不加糖
适用人群 未知
收录时间 2023-08-29

软件简介

微软 VALL-E X 零样本语音合成模型的开源实现。预训练模型现已向公众开放,供研究或应用使用。

VALL-E X 是一个强大而创新的多语言文本转语音(TTS)模型,最初由微软发布。虽然微软最初在他们的研究论文中提出了该概念,但并未发布任何代码或预训练模型。

VALL-E X 可以为单语使用者合成另一种语言的个性化语音。以源自源文本和目标文本的音素序列以及源自音频编解码器模型的源声学标记作为提示,VALL-E X 能够生成目标语言的声学标记,然后将其解压缩为目标语言语音波形。得益于强大的上下文学习能力,VALL-E X不需要同一说话人的跨语言语音数据进行训练,可以执行各种零样本跨语言语音生成任务,例如跨语言文本到-语音合成和语音到语音翻译。

功能特点

  1. 多语言 TTS: 可使用三种语言 - 英语、中文和日语 - 进行自然、富有表现力的语音合成。

  2. 零样本语音克隆: 仅需录制任意说话人的短短的 3~10 秒录音,VALL-E X 就能生成个性化、高质量的语音,完美还原他们的声音。

  1. 语音情感控制: VALL-E X 可以合成与给定说话人录音相同情感的语音,为音频增添更多表现力。
  2. 零样本跨语言语音合成: VALL-E X 可以合成与给定说话人母语不同的另一种语言,在不影响口音和流利度的同时,保留该说话人的音色与情感。
  3. 口音控制: VALL-E X 允许您控制所合成音频的口音,比如说中文带英语口音或反之。
  4. 声学环境保留: 当给定说话人的录音在不同的声学环境下录制时,VALL-E X 可以保留该声学环境,使合成语音听起来更加自然。

查看 demo页面来浏览更多示例。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(1) 发布并加入讨论🔥
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
1 评论
13 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部