To Top
首页 > 语音处理 > 正文

fastspeech

标签:fastspeech


目录

FastSpeech: Fast, Robust and Controllable Text to Speech

将文本转语音速度提高38倍,这个FastSpeech真的很fast

基于神经网络的端到端文本语音转换(TTS)显著改善了合成语音的质量。一些主要方法(如 Tacotron 2)通常首先从文本生成梅尔频谱(mel-spectrogram),然后使用诸如 WaveNet 的声码器从梅尔频谱合成语音。

与基于连接和统计参数的传统方法相比,基于神经网络的端到端模型有一些不足之处,包括推理速度较慢,合成语音不稳健(即某些词被跳过或重复),且缺乏可控性(语音速度或韵律控制)。

本文提出了一种基于 Transformer 的新型前馈网络,用于为 TTS 并行生成梅尔频谱。具体来说就是,从基于编码器-解码器的教师模型中提取注意力对齐(attention alignments),用于做音素(phoneme)持续时间预测。长度调节器利用这一预测来扩展源音素序列,以匹配目标梅尔频谱序列的长度,从而并行生成梅尔频谱。


原创文章,转载请注明出处!
本文链接:http://daiwk.github.io/posts/audio-fastspeech.html
上篇: 对抗学习进展
下篇: EfficientNet

comment here..