GPT-SoVITS-WebUI V2版本使用说明

1.前置准备

启动应用&进入应用

进入应用Web UI界面

2. 数据预处理

准备要克隆的声音素材，官方推荐音频长度为5秒左右（零样本文本到语音）或1分钟左右（少样本 TTS）

2.1 上传音频文件

进入应用数据盘目录下

将要克隆的音频文件进行上传

等待上传完成

此时文件的全路径为：/root/lightcc-tmp/kh.MP3，此处记好，后边要考。

Lightcc平台相关：数据盘的根目录是：/root/lightcc-tmp，可由此拼接处该目录下所有文件的全路径。

2.2 人声伴奏分离、去混响、去延迟

如果音频中含有伴奏等，可以使用该工具。点击开启UVR5-WebUI。

获取服务运行的端口号。

使用端口转发工具打开WebUI。

进入UVR5 Webui界面。

根据自己的需求选择模型，将上传的音频文件全路径复制到输入框中。

点击转换，等待转换完成

查看转换后的结果

记录一下人声文件的全路径，/root/lightcc-tmp/output/uvr5_opt/vocal_kh.MP3_10.flac。

其中/root/lightcc-tmp/output是应用输出目录，uvr5_opt/是uvr5功能输出文件夹。

音频文件处理完毕后关闭uvr5 Web UI界面，回到主Web UI界面释放内存

2.3 语音切分

本次实验时上传的音频文件是1分钟长的新闻联播稿，通过语音切分功能可以将该音频文件中的每一句话分割成一个文件，方便后续进行训练。

输入音频文件路径，如果进行了2.2人声伴奏分离处理，应该填写分离后音频文件的全路径。

其他参数可默认不修改，点击开启语音切割，等待切割完毕。前往输出目录查看切割结果。

音频切割输出目录为：/root/lightcc-tmp/output/slicer_opt，记一下后续有用。

2.4 音频降噪

该步骤可以有效减少音频中的噪音，优化训练效果。

查看降噪结果

音频降噪输出目录为：/root/lightcc-tmp/output/denoise_opt/

2.5 语音识别

该步骤将音频文件识别为文字，用于后续训练。

输入要识别的音频文件夹，开始识别。

识别结束后，查看识别结果。

查看识别出的内容，基本非常准确。每一行对应前边分割出的每一个音频文件。

语音识别结果文件全路径：/root/lightcc-tmp/output/asr_opt/denoise_opt.list

2.6 打标

这一步是对上步语音识别的结果进行简单调整，如：删除不清晰、有杂音等可能影响训练结果的音频。

通过端口转发工具转发9871端口到本地（详细见2.2步骤中的端口转发操作过程）

打开打标工具Web UI界面，检查是否需要修改识别结果或删除某条不符合条件的训练数据。

修改后保存记录。

关闭打标工具WebUI，释放内存。

打标文件路径为：/root/lightcc-tmp/output/asr_opt/denoise_opt.list

至此数据预处理结束，上述步骤可根据自己实际情况选择处理。

3. 训练

数据预处理完毕后，开始训练模型。

回到主UI界面顶部，选择训练功能。

3.1 配置训练信息

进入训练板块，填写模型名、选择版本。

3.2 训练集格式化

训练集格式化以后存储路径为：/root/lightcc-tmp/logs/kh1min/，即/root/lightcc-tmp/logs/+训练模型名

3.3 微调训练

开始微调训练之前，我们先打开LightCc平台应用日志功能，WebUI上只显示进程是否结束，不会显示训练是否成功。通过日志功能我们能够获取到更多信息。

打开日志功能

开始训练

通过日志查看训练结果

SoVITS训练微调模型路径为：/home/GPT-SoVITS/SoVITS_weights_v2/。e是epochs的缩写，表示训练批次，e8表示训练8次后的模型

再进行GPT训练

查看训练结果

GPT训练微调模型路径为：/home/GPT-SoVITS/GPT_weights_v2。

为什么一定要看日志呢？

比如下边这个情况，训练时批次设置的过大，导致内存溢出。web UI界面显示训练结束，只有在日志功能里才能看到报错。根据报错调整我们的参数继续完成训练

截止到此处，训练已全部结束。

4. 推理-文字生成语音

这一步、你可以使用自己在前边训练出来的模型使用文字生成语音，也可以使用别人训练好的模型生成语音。

切换到推理工具、选好模型、启动TTS推理Web UI

上传参考音频，可以去音频切割输出目录/root/lightcc-tmp/output/slicer_opt中选择一个3~10秒的音频下载到本地，再上传到Web UI中。

参考音频文本可以从语音识别结果文件/root/lightcc-tmp/output/asr_opt/denoise_opt.list中快速复制

开始合成