AI孙燕姿音频合成技术大揭秘 – 文心一格

摘要: 了解AI孙燕姿的音频合成技术,探索rvc、diff-svc和so-vits-svc等合成方式,提升音频质量。欢迎了解AI孙燕姿的声音合成技术。

AI孙燕姿的火爆以及音频合成技术

最近AI孙燕姿大火,作为歌声合成业内人士,我也尝试了一下,看看最终质量如何。稍微调研一番,发现目前比较火的开源声音转换技术有下面几种:rvc、diff-svc和so-vits-svc。

这三种方式的基本原理是通过提取原始音频的中间特征,然后再合成目标音频。在本文中,我主要记录了一个测试过程,具体的原理将在后续文章中详细解释。从三种方式中,第一种实际上比较适合用于语音转换,第二种听说效果也不错,但流行程度不及第三种。B站上大部分声音转换视频都是基于第三种方式进行的,因此我只测试了一下第三种方式。

为了测试,我采用了以下这个up主的视频教程:【AI翻唱/SoVITS 4.0】手把手教你老婆唱歌给你听~无需配置环境的本地训练/推理教程[懒人整合包]_哔哩哔哩_bilibili。首先,让我先展示一下最终的效果,我认为还是相当不错的。训练干声和生成干声的效果将在后续内容中展示。

后会无期SVC结果
后会无期SVC结果

前置准备

首先,如果要训练模型,需要一些干声数据。幸运的是,我之前电脑里还有老婆帮我录制的12首歌,应该足够使用了。

我使用的测试机器配置是RTX3060显卡,操作系统为Windows 10。通过这个文档提供的百度网盘链接:https://pan.baidu.com/s/12u_LDyb5KSOfvjJ9LVwCIQ?pwd=g8n4(提取码:g8n4),我下载了整合包。

整合包内包含以下几个文件:
– Adobe Audition 2022 SP.zip:音频处理软件(可选)
– Audio Slicer:音频切分工具(必选)
– UVR5 (Ultimate Vocal Remover):人声去除工具(可选)
– so-vits-svc.zip:最重要的文件

我使用Audio Slicer将干声数据切片,并按照文档中的描述将其放置在so-vits-svc目录下的./dataset_raw/文件夹中。请注意,切片后可以按大小排序,并清除一些无效数据。

训练

基本上,我没有对默认配置做太多修改。下面是训练参数的截图:

训练参数

大概训练了一个晚上,手动停止前命令行的输出如下:

训练输出

一晚上跑了1470多个epoch,从图中也可以看到loss的情况。下面还有一些tensorboard的loss曲线:

loss曲线1
loss曲线2

可以看到,关键的/g/mel损失大约降到了17附近。

推理

我使用的推理配置如下:

推理配置

其中NSF_HIFIGAN我勾选发现效果差别不大。

一些结论

总体效果还是挺好的,偶尔会出现一些咬字不准的情况。安装配置也很顺利。

训练数据的质量非常重要,如果要使用分离的人声数据,需要进行更进一步的细致处理。

经过测试,我们发现转换音频的质量也对结果有很大影响。如果原音频有混响或和声,提取f0会受到影响,最终结果可能会变得有些嘶哑。

以下是一些干声样本(再次吐槽一下,知乎无法直接上传音频):

干声样本
干声样本

希望这篇文章对你有所帮助,如果你有任何问题,请随时提问!

© 版权声明

相关文章