切换主题
GPT-SoVITS-WebUI V2版本使用说明
1.前置准备
启动应用&进入应用
进入应用Web UI界面
2. 数据预处理
准备要克隆的声音素材,官方推荐音频长度为5秒左右(零样本文本到语音)或1分钟左右(少样本 TTS)
2.1 上传音频文件
进入应用数据盘目录下
将要克隆的音频文件进行上传
等待上传完成
此时文件的全路径为:/root/lightcc-tmp/kh.MP3
,此处记好,后边要考。
Lightcc平台相关:数据盘的根目录是:/root/lightcc-tmp
,可由此拼接处该目录下所有文件的全路径。
2.2 人声伴奏分离、去混响、去延迟
如果音频中含有伴奏等,可以使用该工具。点击开启UVR5-WebUI。
获取服务运行的端口号。
使用端口转发工具打开WebUI。
进入UVR5 Webui界面。
根据自己的需求选择模型,将上传的音频文件全路径复制到输入框中。
点击转换,等待转换完成
查看转换后的结果
记录一下人声文件的全路径,/root/lightcc-tmp/output/uvr5_opt/vocal_kh.MP3_10.flac
。
其中/root/lightcc-tmp/output
是应用输出目录,uvr5_opt/
是uvr5功能输出文件夹。
音频文件处理完毕后关闭uvr5 Web UI界面,回到主Web UI界面释放内存
2.3 语音切分
本次实验时上传的音频文件是1分钟长的新闻联播稿,通过语音切分功能可以将该音频文件中的每一句话分割成一个文件,方便后续进行训练。
输入音频文件路径,如果进行了2.2人声伴奏分离处理,应该填写分离后音频文件的全路径。
其他参数可默认不修改,点击开启语音切割,等待切割完毕。前往输出目录查看切割结果。
音频切割输出目录为:/root/lightcc-tmp/output/slicer_opt
,记一下后续有用。
2.4 音频降噪
该步骤可以有效减少音频中的噪音,优化训练效果。
查看降噪结果
音频降噪输出目录为:/root/lightcc-tmp/output/denoise_opt/
2.5 语音识别
该步骤将音频文件识别为文字,用于后续训练。
输入要识别的音频文件夹,开始识别。
识别结束后,查看识别结果。
查看识别出的内容,基本非常准确。每一行对应前边分割出的每一个音频文件。
语音识别结果文件全路径:/root/lightcc-tmp/output/asr_opt/denoise_opt.list
2.6 打标
这一步是对上步语音识别的结果进行简单调整,如:删除不清晰、有杂音等可能影响训练结果的音频。
通过端口转发工具转发9871端口到本地(详细见2.2步骤中的端口转发操作过程)
打开打标工具Web UI界面,检查是否需要修改识别结果或删除某条不符合条件的训练数据。
修改后保存记录。
关闭打标工具WebUI,释放内存。
打标文件路径为:/root/lightcc-tmp/output/asr_opt/denoise_opt.list
至此数据预处理结束,上述步骤可根据自己实际情况选择处理。
3. 训练
数据预处理完毕后,开始训练模型。
回到主UI界面顶部,选择训练功能。
3.1 配置训练信息
进入训练板块,填写模型名、选择版本。
3.2 训练集格式化
训练集格式化以后存储路径为:/root/lightcc-tmp/logs/kh1min/
,即/root/lightcc-tmp/logs/
+训练模型名
3.3 微调训练
开始微调训练之前,我们先打开LightCc平台应用日志功能,WebUI上只显示进程是否结束,不会显示训练是否成功。通过日志功能我们能够获取到更多信息。
打开日志功能
开始训练
通过日志查看训练结果
SoVITS训练微调模型路径为:/home/GPT-SoVITS/SoVITS_weights_v2/
。e是epochs的缩写,表示训练批次,e8表示训练8次后的模型
再进行GPT训练
查看训练结果
GPT训练微调模型路径为:/home/GPT-SoVITS/GPT_weights_v2
。
为什么一定要看日志呢?
比如下边这个情况,训练时批次设置的过大,导致内存溢出。web UI界面显示训练结束,只有在日志功能里才能看到报错。根据报错调整我们的参数继续完成训练
截止到此处,训练已全部结束。
4. 推理-文字生成语音
这一步、你可以使用自己在前边训练出来的模型使用文字生成语音,也可以使用别人训练好的模型生成语音。
切换到推理工具、选好模型、启动TTS推理Web UI
上传参考音频,可以去音频切割输出目录/root/lightcc-tmp/output/slicer_opt
中选择一个3~10秒的音频下载到本地,再上传到Web UI中。
参考音频文本可以从语音识别结果文件/root/lightcc-tmp/output/asr_opt/denoise_opt.list
中快速复制
开始合成