Skip to content

GPT-SoVITS-WebUI V2版本使用说明

1.前置准备

启动应用&进入应用

image-20240909161802467

进入应用Web UI界面

image-20240909172904711

2. 数据预处理

准备要克隆的声音素材,官方推荐音频长度为5秒左右(零样本文本到语音)或1分钟左右(少样本 TTS

2.1 上传音频文件

进入应用数据盘目录下

image-20240909194611463

将要克隆的音频文件进行上传

image-20240909194721057

等待上传完成

image-20240909194820351

此时文件的全路径为:/root/lightcc-tmp/kh.MP3,此处记好,后边要考。

Lightcc平台相关:数据盘的根目录是:/root/lightcc-tmp,可由此拼接处该目录下所有文件的全路径。

2.2 人声伴奏分离、去混响、去延迟

如果音频中含有伴奏等,可以使用该工具。点击开启UVR5-WebUI。

image-20240909162229385

获取服务运行的端口号。

image-20240909173022315

使用端口转发工具打开WebUI。

image-20240909173022315

image-20240909173022315

进入UVR5 Webui界面。

image-20240909173214045

根据自己的需求选择模型,将上传的音频文件全路径复制到输入框中。

image-20240909195825758

点击转换,等待转换完成

image-20240909195918504

查看转换后的结果

image-20240909200129949

image-20240909200249483

image-20240909200428404

记录一下人声文件的全路径,/root/lightcc-tmp/output/uvr5_opt/vocal_kh.MP3_10.flac

其中/root/lightcc-tmp/output是应用输出目录,uvr5_opt/是uvr5功能输出文件夹。

音频文件处理完毕后关闭uvr5 Web UI界面,回到主Web UI界面释放内存

image-20240909200630262

2.3 语音切分

本次实验时上传的音频文件是1分钟长的新闻联播稿,通过语音切分功能可以将该音频文件中的每一句话分割成一个文件,方便后续进行训练。

输入音频文件路径,如果进行了2.2人声伴奏分离处理,应该填写分离后音频文件的全路径。

image-20240909201441152

其他参数可默认不修改,点击开启语音切割,等待切割完毕。前往输出目录查看切割结果。

image-20240909201528989

image-20240909201638690

音频切割输出目录为:/root/lightcc-tmp/output/slicer_opt,记一下后续有用。

2.4 音频降噪

该步骤可以有效减少音频中的噪音,优化训练效果。

image-20240909202112700

查看降噪结果

image-20240909202253906

image-20240909202304066

音频降噪输出目录为:/root/lightcc-tmp/output/denoise_opt/

2.5 语音识别

该步骤将音频文件识别为文字,用于后续训练。

输入要识别的音频文件夹,开始识别。

image-20240909204359544

识别结束后,查看识别结果。

image-20240909204439407

image-20240909204530069

查看识别出的内容,基本非常准确。每一行对应前边分割出的每一个音频文件。

image-20240909204546406

语音识别结果文件全路径:/root/lightcc-tmp/output/asr_opt/denoise_opt.list

2.6 打标

这一步是对上步语音识别的结果进行简单调整,如:删除不清晰、有杂音等可能影响训练结果的音频。

image-20240909205150789

通过端口转发工具转发9871端口到本地(详细见2.2步骤中的端口转发操作过程)

打开打标工具Web UI界面,检查是否需要修改识别结果或删除某条不符合条件的训练数据。

image-20240909205851373

修改后保存记录。

image-20240909210036352

关闭打标工具WebUI,释放内存。

image-20240909210212863

打标文件路径为:/root/lightcc-tmp/output/asr_opt/denoise_opt.list

至此数据预处理结束,上述步骤可根据自己实际情况选择处理。

3. 训练

数据预处理完毕后,开始训练模型。

回到主UI界面顶部,选择训练功能。

3.1 配置训练信息

进入训练板块,填写模型名、选择版本。

image-20240910090742352

3.2 训练集格式化

image-20240910095513538

训练集格式化以后存储路径为:/root/lightcc-tmp/logs/kh1min/,即/root/lightcc-tmp/logs/+训练模型名

image-20240910101944384

3.3 微调训练

开始微调训练之前,我们先打开LightCc平台应用日志功能,WebUI上只显示进程是否结束,不会显示训练是否成功。通过日志功能我们能够获取到更多信息。

打开日志功能

image-20240910110614929

开始训练

image-20240910113946773

通过日志查看训练结果

image-20240910114033813

SoVITS训练微调模型路径为:/home/GPT-SoVITS/SoVITS_weights_v2/。e是epochs的缩写,表示训练批次,e8表示训练8次后的模型

image-20240910115014505

再进行GPT训练

image-20240910114445536

查看训练结果

image-20240910114533760

GPT训练微调模型路径为:/home/GPT-SoVITS/GPT_weights_v2

image-20240910114909875

为什么一定要看日志呢?

比如下边这个情况,训练时批次设置的过大,导致内存溢出。web UI界面显示训练结束,只有在日志功能里才能看到报错。根据报错调整我们的参数继续完成训练

image-20240910112918132

image-20240910112936803

截止到此处,训练已全部结束。

4. 推理-文字生成语音

这一步、你可以使用自己在前边训练出来的模型使用文字生成语音,也可以使用别人训练好的模型生成语音。

切换到推理工具、选好模型、启动TTS推理Web UI

image-20240910115800977

上传参考音频,可以去音频切割输出目录/root/lightcc-tmp/output/slicer_opt中选择一个3~10秒的音频下载到本地,再上传到Web UI中。

参考音频文本可以从语音识别结果文件/root/lightcc-tmp/output/asr_opt/denoise_opt.list中快速复制

image-20240910122257299

开始合成

image-20240910122429820