不用音素标注、不用参考音频,智源这个 TTS 模型一句描述就能造新声音 你还在用 TTS 工具一条条录参考音频VoxCPM2 告诉你写一句年轻女性声音温柔甜美它就能凭空造出一个从未存在过的声音。这个项目解决什么问题传统 TTS 有两条路要么用大量标注数据训练特定音色费时费力要么用参考音频克隆已有声音得有素材。如果你想做一个虚拟主播需要男女老少三个角色就得找三个人的录音样本。VoxCPM2 的答案是没有参考音频也行你描述一下就行。“一个慵懒的中年大叔略带鼻音语速偏慢”——这是一句中文描述也是 VoxCPM2 的输入。模型能理解这段描述生成一个符合所有特征的声音然后用这个声音朗读你指定的任何文本。这不是换声是造声。核心亮点1. 免分词器架构绕过 TTS 最脆弱的环节几乎所有主流 TTS 系统都需要一个音频分词器Tokenizer——把连续声波切成离散的 token像文本 tokenizer 一样处理。这带来两个问题一是信息损失量化误差导致声音细节丢失二是多语言适配困难不同语言的音素体系不同。VoxCPM 的做法是端到端的扩散自回归架构——直接操作连续语音表征不经过离散编码。这意味着什么意味着它天然支持多语言不需要为每种语言设计音素集也意味着声音细节保留更好——因为你没先压缩再解压。2. 音色设计从克隆到创造这是 VoxCPM2 最大的差异化能力。市面上的开源 TTSChatTTS、Fish-Speech、CosyVoice都聚焦在克隆已有声音或用预设音色朗读。VoxCPM2 的 Voice Design 模式允许你用自然语言描述一个从未存在过的音色模型从零合成。技术上看这是把 MiniCPM-4 基座的语言理解能力嫁接到了语音合成任务上——模型理解温柔对应的声学特征是更低的基频波动和更柔和的共振峰过渡然后直接生成对应的连续表征。3. 48kHz 原生输出 流式合成大多数开源 TTS 输出 16kHz 或 24kHzVoxCPM2 原生 48kHz。AudioVAE V2 的非对称编解码设计是关键——输入 16kHz 参考音频编码后上采样到 48kHz 输出。实时性也不错RTX 4090 上 RTF 约 0.3生成 1 秒音频需 0.3 秒配合 vLLM 加速可到 0.13。快速上手pipinstallvoxcpmfromvoxcpmimportVoxCPMimportsoundfileassf modelVoxCPM.from_pretrained(openbmb/VoxCPM2,load_denoiserFalse)# 普通 TTSwavmodel.generate(textVoxCPM2 是目前推荐使用的多语言语音合成版本。,cfg_value2.0,inference_timesteps10,)# 音色设计用描述创建新声音wavmodel.generate(text(年轻女性声音温柔甜美语速适中)你好欢迎使用 VoxCPM2,cfg_value2.0,inference_timesteps10,)sf.write(output.wav,wav,model.tts_model.sample_rate)要求 Python ≥ 3.10、PyTorch ≥ 2.5.0、CUDA ≥ 12.0。国内用户可以从 ModelScope 下载模型速度更快。我的评价VoxCPM2 在开源 TTS 领域做对了一件事把竞争从谁的克隆更像升级到谁能让用户创造新声音。这是一个更广阔的使用场景——虚拟角色设计、有声书多角色配音、游戏 NPC 语音、无障碍应用中的个性化声音——这些场景不需要像某个人而是需要有表现力的新声音。维度VoxCPM2ChatTTSCosyVoiceFish-Speech语言数30 语言 9 方言中英双语中英日韩中英日音色设计✅ 自然语言描述❌❌❌音频质量48kHz24kHz24kHz44.1kHz流式合成✅ RTF 0.3⚠️ 有限❌✅商用许可Apache-2.0非商用Apache-2.0BSD-3硬件需求GPU (≥8GB)CPU/GPUGPUGPU适合立刻试试做虚拟角色、有声内容创作、需要多语言配音的开发者。Apache-2.0 许可意味着商用无忧。再等等如果你只有 CPU 或者显存不够 8GB——20 亿参数不是开玩笑的。另外中文方言的支持质量参差不齐四川话和粤语效果好但部分方言的语音不够自然。