Tacotron

Tacotron 是完全端到端的文本到语音合成模型,主要是将文本转化为语音,使用了预训练模型(pre-trained)技术。 Tacotron 可利用文本生成类似真人的语音,建议安装 Python 3 版本。 使用 pre-trained 模型 下载和解压模型 curl http://data.keithito.com/data/speech/tacotron-20170720.tar.bz2 | tar xjC /tmp 运行 demo server python3 demo_server.py --checkpoint /tmp/tacotron-20170720/model.ckpt 访问 localhost:9000 输入...

加载中

Tacotron-2 实验记录

https://my.oschina.net/u/4853575/blog/4746560

1. Get Tacotron-2-master.zip from https://github.com/Rayhane-mamah/Tacotron-2 2.Unzip Tacotron-2-master.zip on Unbuntu 3.Terminal: cp -r trainingdata ./Tacotron-2 #trainingdata ...

2019/08/30 00:00

PPG-TTS-Tacotron-Rayhane-ALi: 用Tacotron跑降采样PPG到MEL

https://my.oschina.net/u/4853575/blog/4891294

我的代码: https://github.com/ruclion/linearsdecodertacotron-2-joee 欣陶的代码: https://github.com/ruclion/linearsdecodertacotron-2-zhaoxt-tacoLinear 现在严格按照阿里论文复现...

01/11 00:00

基于Tacotron模型的语音合成实践

https://my.oschina.net/u/4415887/blog/3325159

Tacotron模型架构图 (1) 下载tacotron模型的实现到本地,这里是基于GitHub上一个tacotron模型的实现开展研究的,GitHub网址:https://github.com/keithito/tacotron,由于 谷歌没有给出tac...

2019/12/23 00:00

Tacotron的Attention出现问题的分析

https://my.oschina.net/u/4853575/blog/4794777

思磐问的问题, 但是晚上没有好好的回答(哭/(ㄒoㄒ)/~~), 也借着机会问了廖陈峰博士, 记录下来~ 1. 原因 attention是soft的, 所有的输入序列都过一遍, 很容易出现错误, 事实上真实的attention...

2020/12/10 00:00

语音识别:从 WaveNet 到 Tacotron,再到 RNN-T

https://my.oschina.net/u/4378826/blog/3413137

从 WaveNet 到 Tacotron,再到 RNN-T 谷歌再获语音识别新进展:利用序列转导来实现多人语音识别和说话人分类 雷锋网 AI 科技评论按:从 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在语音人...

2019/08/28 00:00

Fantasy Mix-Lingual Tacotron Version 1: Alibaba

https://my.oschina.net/u/4853575/blog/4769478

mix language corpus 下 tacotron TTS 的中英文混读模型简单设计与训练 数据集位于跳板机上, 按照以下步骤可以搞, 然后能听一下 先让同事帮忙从跳板机拷贝到PAME服务器上 找到想要下载的东西...

2020/11/26 00:00

tensorboard的使用(以Tacotron-1-car20为例)

https://my.oschina.net/u/4853575/blog/4746642

目录 调用 数据 PROJECTOR scalar 代码 调用 在有envent的地方: 数据 PROJECTOR PROJECTOR用于将高维向量进行可视化,通过PCA,T-SNE等方法将高维向量投影到三维坐标系。 https://zhuanlan.z...

2019/11/12 00:00

Tacotron的Attention的优化: LSA,GMM和DCA

https://my.oschina.net/u/4853575/blog/4817499

是师弟问了个问题, 在这里记录下吧~ 问题 Hi,大家好,有人尝试过把Tacotron2(Nvidia 开源)中的LSA换成DCA(dynamic convolutional attention, Google2019年提出的)吗?我尝试了之后,发现总是...

2020/12/18 00:00

基于Tacotron汉语语音合成的开源实践

https://my.oschina.net/u/3521704/blog/4610108

2020/04/13 00:00

Fantasy Mix-Lingual Tacotron Version 3: PingAn版本

https://my.oschina.net/u/4853575/blog/4785236

这是PingAnz中文语言的代码, 借来用下, base仍然为Google-逸轩的版本改下, 同时便于对接公司的商用vocoder等 1. 代码阅读 总体没有合并公司的代码, 仍然以逸轩的版本为基本 1.1. Text处理相关...

2020/12/02 00:00

Tacotron-1严格复现CUHK-Mix-Language论文

https://my.oschina.net/u/4853575/blog/4746654

https://www.tensorflow.org/versions/r1.15/apidocs/python/tf/contrib/seq2seq/monotonicattention https://arxiv.org/pdf/1704.00784.pdf 标贝数据集文本的处理脚本: /home/hujk17/dataBZ...

2019/11/01 00:00

语音信号处理在Tacotron实战代码中的应用

https://my.oschina.net/u/4853575/blog/4746668

目录 理论 FFT 理论 FFT 等回学校再弄吧. 看老师的ppt.

2019/11/12 00:00

Speaker Encoder建模音色联合Tacotron训练TTS

https://my.oschina.net/u/4853575/blog/4746267

Tacotron组里发表的建模方式, 平安实习这边去年也有同学尝试过 参考核心论文: 2018-核心-Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 参考Git项...

2020/11/16 00:00

ResCNN Encoder建模音色联合Tacotron训练TTS

https://my.oschina.net/u/4853575/blog/4746281

咱们使用speaker embedding的时候, 可以有两种用法, 一种是one-hot 然后映射到embedding空间, 同一个说话人所有句子共用一个embedding; 第二种是对每句话进行变长序列到embedding的encode, 比...

2020/11/11 00:00

Tacotron-2-google-full-structure 以及 过程中产生的灵感

https://my.oschina.net/u/4853575/blog/4746688

但是我认为应该在进行attention之前. 2. The speaker classifiers are fully-connected networks with one 256 unit hidden layer followed by a softmax predicting the speaker identity....

2019/09/20 00:00

Fantasy Mix-Lingual Tacotron Version 2: Google-ZYX版本

https://my.oschina.net/u/4853575/blog/4769473

这是逸轩跑Google跨语言的代码, 借来用下~ 1. 代码上传 1.1. 学校服务器 上传代码到服务器: FantasyMix-LingualTacotronVersion2Google-ZYX 在git创建项目: ruclion/FantasyMix-LingualTacot...

2020/11/30 00:00

VAE-Tacotron-2/1 以及 VQ-VAE的原理探讨与实现.

https://my.oschina.net/u/4853575/blog/4746716

An implementation of VAE Tacotron speech synthesis in TensorFlow. (https://arxiv.org/abs/1812.04342) 1.https://github.com/yanggeng1995/vaetacotron. 2.requirement.txt都满足. 3. ...

2019/09/18 00:00

研究英伟达Tacotron-2的精度潜力

https://my.oschina.net/u/4853575/blog/4746676

单核训练WaveGlow效果最好. 为什么? 复现单核WaveGlow 用Biao-Bei First版本. 先跑跑看看amp和DDP的情况. git版本 代码输出: 怀疑DDP降低了精度. 不清楚torch的DDP_sampler和这个区别, 不想涉...

2019/10/25 00:00

Tacotron-2-voiceEncodeRnn-transferLearning(CorentinJ/Real-Time-Voice-Cloning)初始化

https://my.oschina.net/u/4853575/blog/4746663

先跑通pre-train 1.pip install -r requirements.txt 需要去掉tensorflow那块, 我们lab10上的不叫gpu 2.下载googleDrive中的文件. https://stackoverflow.com/questions/25010369/wget-curl-...

2019/11/14 00:00

Fantasy Mix-Lingual Tacotron Version 5: NOVAE-Phoneme-HCSI-DBMIX

https://my.oschina.net/u/4853575/blog/4817503

phoneme, 无VAE 效果好象没有带VAE的好 Git: https://github.com/ruclion/FantasyMix-LingualTacotronVersion5NOVAE-Phoneme-HCSI-DBMIX 1. 实验结果...

2020/12/20 00:00
返回顶部
顶部