AI孙燕姿音频合成技术大揭秘 – 文心一格

热门头条1年前 (2023)更新沈浪@葫芦娃AI

7.3K 0 0

摘要: 了解AI孙燕姿的音频合成技术，探索rvc、diff-svc和so-vits-svc等合成方式，提升音频质量。欢迎了解AI孙燕姿的声音合成技术。

AI孙燕姿的火爆以及音频合成技术

最近AI孙燕姿大火，作为歌声合成业内人士，我也尝试了一下，看看最终质量如何。稍微调研一番，发现目前比较火的开源声音转换技术有下面几种：rvc、diff-svc和so-vits-svc。

这三种方式的基本原理是通过提取原始音频的中间特征，然后再合成目标音频。在本文中，我主要记录了一个测试过程，具体的原理将在后续文章中详细解释。从三种方式中，第一种实际上比较适合用于语音转换，第二种听说效果也不错，但流行程度不及第三种。B站上大部分声音转换视频都是基于第三种方式进行的，因此我只测试了一下第三种方式。

为了测试，我采用了以下这个up主的视频教程：【AI翻唱/SoVITS 4.0】手把手教你老婆唱歌给你听~无需配置环境的本地训练/推理教程[懒人整合包]_哔哩哔哩_bilibili。首先，让我先展示一下最终的效果，我认为还是相当不错的。训练干声和生成干声的效果将在后续内容中展示。

后会无期SVC结果

前置准备

首先，如果要训练模型，需要一些干声数据。幸运的是，我之前电脑里还有老婆帮我录制的12首歌，应该足够使用了。

我使用的测试机器配置是RTX3060显卡，操作系统为Windows 10。通过这个文档提供的百度网盘链接：https://pan.baidu.com/s/12u_LDyb5KSOfvjJ9LVwCIQ?pwd=g8n4（提取码：g8n4），我下载了整合包。

整合包内包含以下几个文件：
– Adobe Audition 2022 SP.zip：音频处理软件（可选）
– Audio Slicer：音频切分工具（必选）
– UVR5 (Ultimate Vocal Remover)：人声去除工具（可选）
– so-vits-svc.zip：最重要的文件

我使用Audio Slicer将干声数据切片，并按照文档中的描述将其放置在so-vits-svc目录下的./dataset_raw/文件夹中。请注意，切片后可以按大小排序，并清除一些无效数据。

训练

基本上，我没有对默认配置做太多修改。下面是训练参数的截图：

训练参数

大概训练了一个晚上，手动停止前命令行的输出如下：

训练输出

一晚上跑了1470多个epoch，从图中也可以看到loss的情况。下面还有一些tensorboard的loss曲线：

loss曲线1
loss曲线2

可以看到，关键的/g/mel损失大约降到了17附近。

推理

我使用的推理配置如下：

推理配置

其中NSF_HIFIGAN我勾选发现效果差别不大。

一些结论

总体效果还是挺好的，偶尔会出现一些咬字不准的情况。安装配置也很顺利。

训练数据的质量非常重要，如果要使用分离的人声数据，需要进行更进一步的细致处理。

经过测试，我们发现转换音频的质量也对结果有很大影响。如果原音频有混响或和声，提取f0会受到影响，最终结果可能会变得有些嘶哑。

以下是一些干声样本（再次吐槽一下，知乎无法直接上传音频）：

希望这篇文章对你有所帮助，如果你有任何问题，请随时提问！

# 热门头条 # AI

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Text Generation WebUI开源大语言模型本地部署教程

小蝶@葫芦娃AI

17.9K

全新风格AI超级厨师——Savey Meal-bot

残剑@葫芦娃AI

4.9K

人工智能学习路线图：从入门到进阶

残剑@葫芦娃AI

5.2K

2023最新国内外实用AI工具大全汇总

残剑@葫芦娃AI

7.5K

AI怎么学？AI学习门户大揭秘！赶快了解AI工具大全和AI在线工具

残剑@葫芦娃AI

4.9K

如何购买CHATGPT账号 – 简单步骤，在线购买CHATGPT账号

沈浪@葫芦娃AI

8.3K

最专业、最全面的人工智能学习平台，提供最新的AI技术、AI设计、AI导航、AI做图、虚拟人等内容，让您全面了解人工智能技术领域的最新动态，AI学习入门必修都在这里！

友链申请免责声明广告合作关于我们

 扫码关注公众号，获取更多精彩内容 >>

Copyright © 2025 葫芦娃AI 浙ICP备16012272号-9