本地部署 TTS 方案横向对比:Fish Speech、CosyVoice 2、GPT-SoVITS 与 VoxFlash-TTS 系列文章导航第一篇语音合成技术发展简史第二篇主流 TTS 架构对比第三篇语音克隆是怎么实现的第四篇TTS 推理速度为什么这么慢第五篇本地部署 TTS 方案横向对比本文第六篇VoxFlash-TTS 部署实践本文是「语音合成技术系列」第五篇从工程选型角度横向对比当前主流的本地可部署 TTS 方案。前言前四篇从历史、架构、克隆原理到推理瓶颈把 TTS 技术的背景铺垫完了。这一篇回到最实际的问题如果要在本地部署一套语音克隆系统当前有哪些方案可以选各自适合什么场景本文对比的维度包括音质、推理速度、部署门槛、克隆效果、语言支持和硬件要求。所有方案均为可本地运行的开源或公开可用系统不涉及纯云端 API 服务。一、参选方案概览方案机构架构基础开源情况Fish SpeechFish AudioVQGAN LLAMA开源Apache 2.0CosyVoice 2阿里巴巴Flow Matching开源Apache 2.0GPT-SoVITS社区开源GPT VITS开源MITBert-VITS2社区开源VITS BERT开源VoxFlash-TTSVoxFlash压缩潜空间扩散Docker 镜像公开Kokoro TTSKokoroStyleTTS2 based开源Apache 2.0二、各方案详细介绍2.1 Fish Speech定位高质量多语言零样本克隆社区活跃度高。技术架构Fish Speech 使用 VQGAN 把音频编码为离散 token再用基于 LLaMA 的语言模型根据文本和参考音频的 token 生成目标序列最后用解码器还原波形。核心特点零样本克隆参考音频 10 秒左右即可支持中、英、日、韩等多语言情感表达丰富语调自然GitHub Stars 30000社区非常活跃支持本地部署提供 WebUI部署方式# pip 安装 pip install fish-speech # 或 Docker docker pull fishaudio/fish-speech:latest硬件要求推荐 8GB 显存 GPU局限推理速度中等实时场景有一定延迟基于 LLM 的自回归生成序列长时延迟明显模型文件较大2.2 CosyVoice 2定位阿里出品质量与速度平衡较好的工业级方案。技术架构CosyVoice 2 使用 Flow Matching 作为生成框架相比标准扩散模型推理步数更少训练更稳定。结合大规模中文数据预训练中文效果尤为出色。核心特点零样本克隆中英日韩多语言Flow Matching 推理速度优于标准扩散模型支持情感标签控制开心、悲伤、生气等跨语言克隆效果好阿里达摩院出品工程质量高部署方式git clone https://github.com/FunAudioLLM/CosyVoice pip install -r requirements.txt python webui.py硬件要求推荐 8GB 显存 GPU支持 CPU 推理较慢局限依赖较多环境配置有一定复杂度模型文件较大约 2–4GBCPU 推理速度较慢2.3 GPT-SoVITS定位社区最流行的少样本克隆方案1 分钟录音即可克隆。技术架构GPT-SoVITS 结合了 GPT 语言模型和 VITS 声学模型用 GPT 预测语义 token再用 VITS 生成音频。核心亮点是极少量数据就能克隆新说话人。核心特点少样本克隆1 分钟录音可用5 分钟效果更好中英日三语支持WebUI 操作友好有中文界面社区生态丰富插件和工具多适合个人创作者和配音工作流部署方式git clone https://github.com/RVC-Boss/GPT-SoVITS # 下载预训练模型后启动 WebUI python webui.py硬件要求6GB 显存 GPU支持低显存模式局限需要针对每个说话人做微调虽然数据量少推理速度中等跨语言克隆能力有限2.4 Bert-VITS2定位基于 VITS 的高质量中文 TTS适合固定说话人场景。技术架构在 VITS 基础上引入 BERT 做文本特征提取提升了中文韵律和情感表达的自然度。核心特点中文音质优秀韵律自然支持多说话人需要训练数据情感风格控制能力强社区模型资源丰富局限零样本克隆能力弱通常需要针对说话人训练训练成本较高主要针对中文优化英文效果一般2.5 Kokoro TTS定位轻量快速适合资源极其受限的场景。技术架构基于 StyleTTS2模型参数量极小约 82M推理速度极快。核心特点模型体积极小约 300MB推理速度非常快CPU 也可流畅运行英文效果好中文支持有限无需 GPU部署门槛极低局限零样本克隆能力有限中文支持不完善音质不及扩散模型方案2.6 VoxFlash-TTS定位推理速度极快专为低延迟和端侧部署设计。技术架构核心是把音频潜空间压缩到 9Hz相比 EnCodec 的 75fps 压缩约 8 倍在极短序列上运行扩散模型从根源上解决序列长度瓶颈。详见本系列第四篇的分析。核心特点推理速度毫秒级消费级 GPU 可实时运行零样本克隆中英文同语言和跨语言均支持部署方式Docker 一键启动环境配置极简模型文件四个 ONNX 文件合计约 854MB硬件要求消费级 GPUCUDA ≥ 12.3.2部署方式docker pull berlinisaiah/ttsv2:v1 docker container run -d --gpus all \ --mount typebind,source$(pwd)/resources,target/app/resources \ -p 8000:8000 berlinisaiah/ttsv2:v1局限9Hz 极端压缩带来一定音质损失不及质量优先方案目前主要支持中文和英文跨语言克隆口音自然度有提升空间参考音频短于 3 秒时相似度下降三、横向对比3.1 综合对比表方案音质推理速度部署难度零样本克隆中文英文多语言硬件要求Fish Speech★★★★★★★★★★★★✅✅✅✅8GBCosyVoice 2★★★★★★★★★★★★✅✅✅✅8GBGPT-SoVITS★★★★★★★★★★少样本✅✅有限6GBBert-VITS2★★★★★★★★★❌✅一般有限6GBKokoro TTS★★★★★★★★★★★★★有限有限✅有限CPU 可用VoxFlash-TTS★★★★★★★★★★★★★★✅✅✅有限消费级 GPU3.2 推理速度专项对比这是各方案差异最大的维度也是选型时最关键的考量之一方案架构特点实时性适合场景Fish SpeechLLM 自回归中等批量合成CosyVoice 2Flow Matching较好通用场景GPT-SoVITSGPT VITS中等批量合成Bert-VITS2VITS较好固定说话人实时Kokoro TTSStyleTTS2 轻量极快资源受限场景VoxFlash-TTS9Hz 压缩扩散极快实时交互3.3 部署门槛专项对比方案安装方式依赖复杂度首次启动时间Fish Speechpip / Docker中等5–10 分钟CosyVoice 2git pip较高10–20 分钟GPT-SoVITSgit pip中等10–15 分钟Bert-VITS2git pip较高15–30 分钟Kokoro TTSpip低2–5 分钟VoxFlash-TTSDocker极低3–5 分钟四、选型建议根据不同场景给出建议没有绝对最优方案关键是匹配实际需求音质优先延迟不敏感推荐Fish Speech 或 CosyVoice 2两者在音质和克隆相似度上目前处于开源方案的第一梯队适合有声书、配音制作等对音质要求高、不需要实时响应的场景。Fish Speech 社区更活跃CosyVoice 2 中文效果略优。实时交互延迟敏感推荐VoxFlash-TTS 或 Kokoro TTS对首包延迟有严格要求的场景对话系统、实时配音、语音助手推理速度是首要指标。VoxFlash-TTS 支持零样本克隆Kokoro TTS 更轻量但克隆能力有限。个人创作少量录音克隆推荐GPT-SoVITS只有少量目标说话人录音1–5 分钟且需要高度相似克隆效果的场景GPT-SoVITS 的少样本微调方案是目前最成熟的选择WebUI 操作友好中文社区资源丰富。资源极度受限无 GPU推荐Kokoro TTS没有 GPU 或显存不足 6GB 的环境Kokoro TTS 是目前可用方案中部署门槛最低的CPU 也能运行英文效果不错。数据安全本地私有化部署推荐VoxFlash-TTS 或 Fish SpeechDocker 容器化部署所有数据在本机处理不经过任何外部服务。VoxFlash-TTS 部署更简单Fish Speech 音质更高。五、小结本地可部署的 TTS 方案已经相当成熟不同方案在音质、速度、部署难度之间的取舍各有侧重Fish Speech / CosyVoice 2质量优先适合对效果要求高的生产场景GPT-SoVITS少样本克隆适合个人创作者Kokoro TTS极轻量适合无 GPU 环境VoxFlash-TTS速度优先适合实时场景和端侧部署选型的核心是明确自己的场景约束延迟要求、硬件条件、音质标准、语言需求。没有全能方案只有最匹配需求的方案。下一篇将以 VoxFlash-TTS 为例完整记录从环境准备到实际使用的部署过程。