AI革命:CHAT GPT4将席卷科技界!

AI学习,AI绘画,ChatGPT

AI革命:CHAT GPT4将席卷科技界!

AI革命:CHAT GPT4将席卷科技界!

一、AI孙燕姿背后的技术:So-VITS-SVC测试

最近AI孙燕姿风靡一时!作为歌声合成业内人士,我也迫不及待地尝试了一下,想看看最终的质量究竟如何。经过一番调研,我发现目前比较受关注的开源svc主要有以下几种:rvc、diff-svc和so-vits-svc。其中,我选择了最流行的so-vits-svc进行测试。接下来我将记录下测试的过程,并在后续文章中对其具体原理进行详解。

首先,让我们先来看一下最终的效果。我认为还是相当不错的。训练干声和生成干声的效果我会在后面的内容中展示。(因为无法在知乎单独上传音频,所以我使用了GPT4+midjourney加上了视觉内容)

前置准备

要训练模型,首先需要一些干声数据。幸运的是,我电脑里还有我老婆帮我录制的12首歌,应该够用了。另外,我使用的测试机器是搭载RTX3060显卡的Windows10操作系统。

关于训练的具体步骤和所需文件,我在这个文档链接中提供了百度网盘下载链接,里面包含了一些必备的软件和文件,如Adobe Audition 2022 SP.zip(音频处理软件)、Audio Slicer(音频切分工具)、UVR5(人声去除工具)和so-vits-svc.zip(最重要的文件)。

使用Audio Slicer将干声数据切片,并按照文档描述的方式放置在so-vits-svc目录的.\dataset_raw\文件夹中。记得按照大小排序,剔除一些无效数据。

训练过程

基本上,我并没有对默认配置进行太多修改。整个训练过程大约持续了一个晚上,我手动停止训练前,命令行的输出如下:

一晚上跑了1470多个epoch,从图表中也可以看出损失情况,下面还附上了一些tensorboard的损失曲线:

可以看到,关键的/g/mel损失大约降到了17左右。

推理过程

在推理过程中,我使用了以下配置:

其中,我勾选了NSF_HIFIGAN,但发现对效果影响不大。

结论

总体而言,效果还是相当不错的。虽然偶尔会有一些咬字不准确的情况,但安装配置过程都非常顺利。需要注意的是,训练数据的质量非常重要。如果想要使用分离的人声数据,需要更加精细地处理。经过测试,我发现用于转换的音频质量也需要相对较高,才能获得更好的结果。如果原音频中存在混响或和声,可能会影响f0的提取,导致最终结果出现变哑的情况。

© 版权声明

相关文章

暂无评论

暂无评论...