
VoxCPM简介
VoxCPM是什么?
VoxCPM 是由面壁智能(ModelBest) 联合清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)开发并开源的无分词器文本转语音(Tokenizer-Free TTS)系统。 使用了端到端扩散自回归架构(Diffusion Autoregressive),最大的优势是直接生成平滑的说话语音,而不必借助复杂繁琐的方法对音、字进行标注以便实现文本音频的同步匹配,AI语音能够更贴近人类声音,并达到与原声接近的程度,在自然度、流畅度以及音色还原上都有非常大的提高。

核心功能
- 上下文感知语音生成:能够根据上下文自动调整语气、语调和说话方式以匹配文本内容,使合成语音更富自然性。
- 零样本语音克隆:在只有少量的参考句子发音的基础上就能成功克隆说话人的口音、音调、音高和抑扬顿挫。
- 高效实时合成:在消费级显卡(如 RTX 4090)上可实现低至 0.17 RTF 的流式生成,支持实时应用。
- 双语支持:主要针对中文和英文训练,在这两种语言上表现最佳。
- 开源可用:已在 GitHub、Hugging Face 等平台开放代码与模型权重,方便研究与二次开发。
VoxCPM的技术原理
1. 端到端扩散自回归架构(Diffusion Autoregressive):直接从文本生成连续语音,而不是先经过离散的分词(tokenization)操作,进而进行量化和解量化步骤,尽可能避免量化所带来的误差,能更好地表达细节以及保持语音信号的连续性。
2. 分层语言建模 + FSQ 约束
- 分层语言建模(Hierarchical LM):将语义模型和声学模型解耦开来,进行逐层表达
- FSQ(Frequency-Selective Quantization):在频率域进行有限状态的量化,隐式地解耦语声模式,提高编码的表达能力和自回归稳定性
3. 局部音频编码模块(LocEnc Module):对输入文本进行编码,提取语义信息,生成适合语音生成的中间表示。
4. 文本-语义语言模型(TSLM):建模文本的语义结构,生成与内容相关的语义表示,为后续声学生成提供基础。
5. 残差声学语言模型(RALM):在语义表示的基础上细化声学特征,补充韵律、音色等细节,使语音更自然逼真。
6. 局部扩散生成模块(LocDiT Module):通过扩散过程生成连续语音特征,将语义与声学信息融合,生成高质量语音波形。
7. 因果式 VAE 编解码器:将原始音频压缩到低帧率隐空间(latent space),将生成的语音特征重构回波形,保证音质与稳定性 。
适用场景
- 虚拟主播 / 智能客服:生成自然、富有表现力的语音输出
- 有声读物 / 播客制作:快速批量生成高质量旁白
- 游戏与影视配音:低成本实现多角色、多情绪配音
- 个性化语音助手:根据用户喜好定制声音风格
- 方言播报与特殊语音任务:支持多种方言及公式、符号朗读
VoxCPM的项目地址
Github仓库: https://github.com/OpenBMB/VoxCPM/
Hugging Face模型库: https://huggingface.co/openbmb/VoxCPM-0.5B
在线体验Demo: https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
数据评估
本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年9月21日 下午6:28收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。
与VoxCPM相关工具


FramePackLoop

RAGFlow

千帆慧金

AnimateZero

扣子-AI办公

天谱乐

腾讯混元3D

MotionGen

NotaGen

文心千帆

Magi

言犀

Evidently Al

讯飞开放平台
