VoxCPM

2天前发布 480 00

工具介绍:VoxCPM是由面壁智能(ModelBest) 联合 清华大学深圳国际研究生院人机语音交互实验室(THUHCSI) 开发并开源的无分词器文本转语音(Tokenizer-Free TTS)系统。 它采用端到端扩散自回归架构(Diffusion Autoregressive),直接从文本生成连续语音表示,突破了传统离散标记化方法的限制,在自然...

收录时间:
2025-09-21

VoxCPM简介

VoxCPM是什么?

VoxCPM 是由面壁智能(ModelBest) 联合清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)开发并开源的无分词器文本转语音(Tokenizer-Free TTS)系统。 使用了端到端扩散自回归架构(Diffusion Autoregressive),最大的优势是直接生成平滑的说话语音,而不必借助复杂繁琐的方法对音、字进行标注以便实现文本音频的同步匹配,AI语音能够更贴近人类声音,并达到与原声接近的程度,在自然度、流畅度以及音色还原上都有非常大的提高。

VoxCPM

核心功能

  • 上下文感知语音生成:能够根据上下文自动调整语气、语调和说话方式以匹配文本内容,使合成语音更富自然性。
  • 零样本语音克隆:在只有少量的参考句子发音的基础上就能成功克隆说话人的口音、音调、音高和抑扬顿挫。
  • 高效实时合成:在消费级显卡(如 RTX 4090)上可实现低至 0.17 RTF 的流式生成,支持实时应用。
  • 双语支持:主要针对中文和英文训练,在这两种语言上表现最佳。
  • 开源可用:已在 GitHub、Hugging Face 等平台开放代码与模型权重,方便研究与二次开发。

VoxCPM的技术原理

1. 端到端扩散自回归架构(Diffusion Autoregressive):直接从文本生成连续语音,而不是先经过离散的分词(tokenization)操作,进而进行量化和解量化步骤,尽可能避免量化所带来的误差,能更好地表达细节以及保持语音信号的连续性。

2. 分层语言建模 + FSQ 约束

  • 分层语言建模(Hierarchical LM):将语义模型和声学模型解耦开来,进行逐层表达
  • FSQ(Frequency-Selective Quantization):在频率域进行有限状态的量化,隐式地解耦语声模式,提高编码的表达能力和自回归稳定性

3. 局部音频编码模块(LocEnc Module):对输入文本进行编码,提取语义信息,生成适合语音生成的中间表示。

4. 文本-语义语言模型(TSLM):建模文本的语义结构,生成与内容相关的语义表示,为后续声学生成提供基础。

5. 残差声学语言模型(RALM):在语义表示的基础上细化声学特征,补充韵律、音色等细节,使语音更自然逼真。

6. 局部扩散生成模块(LocDiT Module):通过扩散过程生成连续语音特征,将语义与声学信息融合,生成高质量语音波形。

7. 因果式 VAE 编解码器:将原始音频压缩到低帧率隐空间(latent space),将生成的语音特征重构回波形,保证音质与稳定性 。

适用场景

  • 虚拟主播 / 智能客服:生成自然、富有表现力的语音输出
  • 有声读物 / 播客制作:快速批量生成高质量旁白
  • 游戏与影视配音:低成本实现多角色、多情绪配音
  • 个性化语音助手:根据用户喜好定制声音风格
  • 方言播报与特殊语音任务:支持多种方言及公式、符号朗读

VoxCPM的项目地址

Github仓库: https://github.com/OpenBMB/VoxCPM/
Hugging Face模型库: https://huggingface.co/openbmb/VoxCPM-0.5B
在线体验Demo: https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

数据评估

VoxCPM浏览人数已经达到480,如你需要查询该站的相关权重信息,可以通过第三方来进行查询,比如爱站、5118数据、chinaz等;更多网站价值评估因素如:该网站的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找该网站的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于VoxCPM特别声明

本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年9月21日 下午6:28收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。

与VoxCPM相关工具

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...