TTS | ByteJog

GPT-SoVITS ：https://github.com/RVC-Boss/GPT-SoVITS 官方demo介绍：https://www.bilibili.com/video/BV12g4y1m7Uw 功能：零样本文本到语音（TTS）：输入 5 秒的声音样本，即刻体验文本到语音转换。少样本 TTS：仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感。跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。 WebUI 工具：集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和 GPT/SoVITS 模型。使用过程简介：数据处理 UVR5 人声处理音频切割音频降噪音频打标校对标注训练数据集格式化微调训练推理教程实验环境：Ubuntu 22.04，NVIDIA RTX A6000 采用docker形式部署 docker-compose.yaml文件：https://raw.githubusercontent.com/RVC-Boss/GPT-SoVITS/main/docker-compose.yaml 0. 准备工作在主目录下创建GPT-SoVITS，并下载docker-compose.yaml，包括模型的镜像大小5G左右 cd ~ mkdir GPT-SoVITS cd GPT-SoVITS mkdir logs output reference SoVITS_weights GPT_weights curl -o docker-compose.yaml https://raw.githubusercontent.com/RVC-Boss/GPT-SoVITS/main/docker-compose.yaml 默认docker-compose.yaml需要做一下调整，需要将 GPT_weights文件夹映射出来。原始内容： volumes: - ./output:/workspace/output - ./logs:/workspace/logs - ./SoVITS_weights:/workspace/SoVITS_weights - ./reference:/workspace/reference 修改后的内容（增加GPT_weights一行映射）： ...