一分钟克隆你的声音!GPT-SoVITS Win/Mac/Colab通用教程

发布网友发布时间：2024-09-30 06:55

共1个回答

热心网友时间：2024-11-25 13:21

一分钟克隆你的声音，GPT-SoVITS 项目让普通人轻松享受AI红利。本教程为Mac用户提供了完整的安装与使用指南，旨在简化官方文档的专业性，让初学者也能快速上手。

安装部分：

对于Windows用户，直接下载整合包解压后启动GPT-SoVITS-WebUI即可。Mac用户需确保满足使用GPU的条件，并遵循与sd-webui类似的步骤，建议使用「科学上网」。

准备工作：

确保已安装Xcode命令行工具和conda，若未安装，请前往anaconda.com下载并按指示进行安装。安装后刷新终端并输入指令检查conda版本信息。

下载GPT-SoVITS：

使用「git clone」命令下载文件至指定位置。

创建环境与下载依赖：

退出终端，重新打开并执行安装指令，确保成功安装依赖。

下载FFmpeg与NLTK资源：

使用Python shell执行命令进行下载。

启动webui：

无需报错，运行本地ip地址，若未自动跳转，请手动复制。

下载预训练模型：

从指定位置下载预训练模型，确保安装git lfs以支持大文件下载。

日常使用：

激活环境，cd至「GPT-SoVITS」文件路径并启动webui。

训练与推理：

Mac用户目前在GPU训练方面不稳定，推荐使用云端部署训练模型，然后将资源下载至本地进行推理。

教程演示与注意事项：

参考B站官方教程进行界面操作演示，确保遵守软件条款协议，避免不正当使用他人音频资源。

选择Colab或国内AutoDL进行云端演示，并遵循本地操作逻辑。

准备音频素材：

录制或下载1分钟内的音频，进行简单处理后导出为.wav格式。

启动镜像与文件管理：

使用Colab或AutoDL启动代码块，上传音频文件并进行切割、离线ASR与语音打标。

训练集格式化与微调：

使用训练集格式化工具，进行模型训练。

推理流程：

上传参考音频，输入文本并选择语种，生成语音。

使用提示与注意：

仅支持纯中文/英文/日语生成，文本过长可能导致显存溢出。出现内存泄漏问题时，重启推理webUI可解决问题。

生成的音频可下载或在「TEMP」文件夹查看。

结束语：

教程到此结束，希望对您有所帮助，祝学习愉快！