fastspeech

首页 > 语音处理 > 正文

标签：fastspeech

2019-06-01

FastSpeech: Fast, Robust and Controllable Text to Speech

基于神经网络的端到端文本语音转换（TTS）显著改善了合成语音的质量。一些主要方法（如 Tacotron 2）通常首先从文本生成梅尔频谱（mel-spectrogram），然后使用诸如 WaveNet 的声码器从梅尔频谱合成语音。

与基于连接和统计参数的传统方法相比，基于神经网络的端到端模型有一些不足之处，包括推理速度较慢，合成语音不稳健（即某些词被跳过或重复），且缺乏可控性（语音速度或韵律控制）。

本文提出了一种基于 Transformer 的新型前馈网络，用于为 TTS 并行生成梅尔频谱。具体来说就是，从基于编码器-解码器的教师模型中提取注意力对齐（attention alignments），用于做音素（phoneme）持续时间预测。长度调节器利用这一预测来扩展源音素序列，以匹配目标梅尔频谱序列的长度，从而并行生成梅尔频谱。

原创文章，转载请注明出处！
本文链接：http://daiwk.github.io/posts/audio-fastspeech.html

上篇：对抗学习进展

下篇： EfficientNet

comment here..

fastspeech

栏目分类

最新文章