AI革命：CHAT GPT4将席卷科技界！

热门头条2年前 (2023)发布残剑@葫芦娃AI

4.7K 0 0

AI革命：CHAT GPT4将席卷科技界！

一、AI孙燕姿背后的技术：So-VITS-SVC测试

最近AI孙燕姿风靡一时！作为歌声合成业内人士，我也迫不及待地尝试了一下，想看看最终的质量究竟如何。经过一番调研，我发现目前比较受关注的开源svc主要有以下几种：rvc、diff-svc和so-vits-svc。其中，我选择了最流行的so-vits-svc进行测试。接下来我将记录下测试的过程，并在后续文章中对其具体原理进行详解。

首先，让我们先来看一下最终的效果。我认为还是相当不错的。训练干声和生成干声的效果我会在后面的内容中展示。（因为无法在知乎单独上传音频，所以我使用了GPT4+midjourney加上了视觉内容）

前置准备

要训练模型，首先需要一些干声数据。幸运的是，我电脑里还有我老婆帮我录制的12首歌，应该够用了。另外，我使用的测试机器是搭载RTX3060显卡的Windows10操作系统。

关于训练的具体步骤和所需文件，我在这个文档链接中提供了百度网盘下载链接，里面包含了一些必备的软件和文件，如Adobe Audition 2022 SP.zip（音频处理软件）、Audio Slicer（音频切分工具）、UVR5（人声去除工具）和so-vits-svc.zip（最重要的文件）。

使用Audio Slicer将干声数据切片，并按照文档描述的方式放置在so-vits-svc目录的.\dataset_raw\文件夹中。记得按照大小排序，剔除一些无效数据。

训练过程

基本上，我并没有对默认配置进行太多修改。整个训练过程大约持续了一个晚上，我手动停止训练前，命令行的输出如下：

一晚上跑了1470多个epoch，从图表中也可以看出损失情况，下面还附上了一些tensorboard的损失曲线：

可以看到，关键的/g/mel损失大约降到了17左右。

推理过程

在推理过程中，我使用了以下配置：

其中，我勾选了NSF_HIFIGAN，但发现对效果影响不大。

结论

总体而言，效果还是相当不错的。虽然偶尔会有一些咬字不准确的情况，但安装配置过程都非常顺利。需要注意的是，训练数据的质量非常重要。如果想要使用分离的人声数据，需要更加精细地处理。经过测试，我发现用于转换的音频质量也需要相对较高，才能获得更好的结果。如果原音频中存在混响或和声，可能会影响f0的提取，导致最终结果出现变哑的情况。