Voicebox：文本引导的多语言规模化通用语音生成

热门头条2年前 (2023)发布残剑@葫芦娃AI

4.7K 0 0

像GPT和DALL-E这样的大规模生成模型已经彻底改变了自然语言处理和计算机视觉研究。这些模型不仅可以生成高保真度的文本或图像输出，而且还是通才，可以解决没有明确训练过的任务。

相比之下，语音生成模型在规模和任务泛化方面仍然很原始。在这篇论文中，我们介绍了Voicebox，这是最通用的大规模文本引导的语音生成模型。Voicebox是一个非自回归的流匹配模型，被训练来填充语音，给定音频上下文和文本，训练在超过50K小时的语音上，这些语音既没有被过滤也没有被增强。

与GPT类似，Voicebox可以通过上下文学习执行许多不同的任务，但它更灵活，因为它也可以根据未来的上下文进行条件设置。

Voicebox可以用于单语或跨语言的零样本（zero-shot）文本到语音合成、噪声去除、内容编辑、风格转换和多样化样本生成。特别是，Voicebox在可理解性（5.9% vs 1.9%的词错误率）和音频相似性（0.580 vs 0.681）方面的性能超过了最先进的零样本（zero-shot）TTS模型VALL-E，同时其速度快了20倍。

具体可以参考下面的视频（中英文字幕）