
Kokoro TTS简介
Kokoro TTS是什么?
Kokoro TTS 是一款基于 StyleTTS 2 架构开发的轻量级、高性能 AI 语音合成模型,专注于提供自然流畅、多语言支持的文本转语音(TTS)解决方案。简洁小巧的架构蕴含强大的能力,使用仅为 8200 万参数量即可匹敌甚至赶超大模型级别的音质效果,具有极佳灵活广泛的应用特性,能轻松应用于内容生产、企业培训及无障碍场景等多维度服务中。

核心特性与功能
- 轻量高效,性能卓越
- 只有 8200 万,比同类模型参数量(XTTS: 4.67 亿,MetaVoice: 12 亿)要少,但是在语音自然度和流畅度上都表现不错。
- CPU/GPU 支持运行,使用 NVIDIA GPU 加速可实时播放音频(牺牲了部分速度)。
- 多语言支持,覆盖主流语种
- 英版(美式/英式)、法语、韩语、日语及普通话等多种语言和多种语音包,包括英语的 Bella/Sarah/Adam 版本等。
- 工具灵活,适配多元场景
- 自动内容分割:能够识别文字的章节与段落,便于后期对电子书或文章转音频的操作,输出后无排版痕迹。
- 可定制语音包:支持不同音色、语气的声音包供选择使用,可根据项目更换。
- OpenAI 生态兼容:无缝集成 OpenAI API,方便开发者扩展功能,融入各类应用程序。
- 自动内容分割:能够识别文字的章节与段落,便于后期对电子书或文章转音频的操作,输出后无排版痕迹。
- 开源免费,商业友好
- Apache 2.0 开源授权,个人或者商业免费使用,无版权声明,开发者可以在 Hugging Face 仓库直接获取代码或在 Colab 上教程直接试用。
应用场景
- 有声书与内容创作:迅速将你的电子书籍、博客等变成精美的有声作品(小众题材、多种语言版本都可以)。
- 播客与音视频制作:从你的文本文稿迅速转变为活灵活现的真实旁白,快速生成海量内容。
- 企业培训与教育:为企业的不同语言、不同国家训练视频或者手册提供声音注解。
- 无障碍服务:可以帮助你或身边视觉障碍的亲朋好友无障碍地收听网页、办公文档等等需要读出来的东西!
使用教程指南
Kokoro TTS 的使用有两种方式,分别是线上体验和本地安装,下面进行一一介绍:
一、在线使用教程
- 访问网站:进入 Kokoro TTS 在线平台,如https://kokorotts.online/ 。
- 输入文本:在输入框内输入或粘贴需要转成语音的文字(平台支持美式发音和英式发音),能识别自然语言文本的语境、标点和各种细微差别等,方便后期 TTS 合成。
- 选择语音:从平台上搭载的由 kokoro82m 开发的丰富的自然语音库中选择适合的声音进行转化;这些自然的文本转语音被录制加工得淋漓尽致。
- 生成并获取语音:点击一键合成后,kokoro tts 将会利用 AI 最新的语音生成技术,在几秒钟之内就将文字变成流畅自然的语音输出,并且匹配好节奏重音语气情感等等完美无瑕并且表达语调自然到位;语音格式高达 24k,在线就能播放。
二、本地使用教程
1.准备工作
- 安装依赖(git LFS, espeak-ng):安装方式:git lfs install,用于大文件下载,Linux 系统下执行命令后可进行 git-lfs 的安装;espeak-ng 同理。其余的则为:pip install torch transformers phonemizer scipy munch 来安装 Pytorch 依赖包。(Windows/MacOS 可能需要再额外配置一步,可以搜索 espeak-ng 中间件 GitHub 下载问题解决)。
- 克隆模型仓库:将 Kokoro TTS 的 Hugging Face 仓库clone到本地,后续操作基于该目录进行。
2.构建模型并加载语音包
- 选择设备:CPU 还是 GPU 来加载运行,不同的设备会导致不同的运行速度。
- 加载模型和语音包:Kokoro TTS 内置默认的 Bella 和 Sarah 混合语包。通过代码来选择想要合成使用的语音名,VOICE_NAME = ‘af’ ,然后通过 VOICEPACK = torch.load(f’voices/{VOICE_NAME}.pt’, weights_only=True).to(device) 加载我们想要使用的声音包。
3.生成语音:输入文本内容,用模型加刚刚选好的语音包输出对应的语音与音素,audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME(0))。其中 MODEL 是已经建好好的模型,text 要输入的内容。
4.播放和保存语音:可以在浏览器里直接展示,在窗口里面就可以听到音频,能够更加直观地感受一下效果;可以点击另存为,用 wav.write(“output_audio.wav”, 24000, audio),把文件保存成 .wav 的格式。
数据评估
关于Kokoro TTS特别声明
本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年4月9日 下午9:42收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。
与Kokoro TTS相关工具

Soundverse AI - 面向音乐人和创作者的智能音频创作平台。利用文本转音乐、歌词创作、音轨分离等AI技术,Soundverse让音乐创作变得前所未有的简单和高效。

Noisee AI
Noisee AI是一个在Discord平台上运行的AI音乐转视频工具,可以将你喜欢的旋律转化为音乐视频。

派克配音
派克配音网,专业的在线配音平台,汇集了全球数百位杰出的中英文配音大师,致力于提供各类配音服务。

唱鸭
唱鸭,不会乐器也能自弹自唱!它是阿里巴巴旗下的一款一站式解决音乐创作全流程的AI自动作曲工具,集 AI 辅助作词、AI 自动作曲、编曲、混音于一体,让专业用户获得灵感,让小白用户轻松迈入音乐创作殿堂。

知意字稿
知意字稿是一款基于AI技术的在线语音转文字和文字提取工具。它能够快速、准确地识别音频文件中的声音内容,并将其转换成文字形式。同时,它还可以将音频文件转换成字幕文件,方便用户在视频中使用。

魔音工坊
魔音工坊是一款达人热推的短视频/有声书AI配音平台。

Text Reader
Text Reader 是一款基于人工智能技术的文本转语音生成器,它能够将输入的文字内容转换为逼真的语音,并可以下载为 MP3 格式。

搜狗声咖
搜狗声咖一站式音视频智能创作平台。只需导入文本或上传已录制的音频,即可生成高品质的配音音频内容。

MakeSong
MakeSong是一款人工智能驱动的AI音乐和歌曲生成器,帮助用户快速创作原创音乐。它支持歌词模式和 描述模式,用户可以直接输入歌词或描述音乐风格,由 AI 自动生成一首完整的歌曲。

CosyVoice
CosyVoice 是阿里巴巴通义实验室发布的开源语音生成模型。它专注于自然语音生成,支持多语言、音色和情感控制。CosyVoice 能够生成中、英、日、粤、韩五种语言的语音,并且可以在短短几秒钟内克隆声音,适用于智能助手、教育、音视频制作和智能客服等多种场景。

MiniMax Audio
MiniMax Audio是一款 AI驱动的语音合成平台,专注于 文本转语音(TTS)&语音克隆 技术,凭借先进的Speech-02模型,它支持长文本输入和多样化的声音选项,能够 生成自然流畅、多语言、多情感的AI语音,适用于 广告、播客、有声读物、AI导师 等场景!

StockTune
StockTune是一个提供免费、高质量、无版权问题的音乐资源的平台。它为内容创作者提供了一个广泛的音乐库,涵盖各种风格和类型的音乐,适用于视频、电影、项目等创意作品的配乐。StockTune的音乐由AI生成,用户可以轻松找到适合他们项目的音乐,而无需担心版权问题。

TTSynth.com
TTSynth.com 是一个免费的在线文本转语音(TTS)工具,支持多种语言和声音。用户可以轻松将书面文本转换为自然语音,并下载高质量的MP3文件。无论是用于有声书、演示文稿还是无障碍应用,TTSynth.com 都能提供快速、便捷的解决方案。

OptimizerAl
OptimizerAI是一款专门为视频自动生成音效的AI工具。用户可以通过文字提示,利用这个平台创造适用于不同场景的声音和音效,如游戏中的射击声、跳跃声,动画中的雨声环境,以及视频中的地铁到站声音等。此外,它还能基于一个参考声音生成多个类似的声音,提供变声功能。用户可以通过指定风格标签(如卡通、恐怖、8位等)来引导生成不同风格的声音。

团子AI
团子AI是一款在线人工智能音乐处理工具箱,提供伴奏人声提取、任意乐器分离和无损升降调等多种有趣且实用的功能。基于 MIT 协议的开源项目 Spleeter 制作,使用 Python/Tensorflow 开发,通过深度神经网络(DNN)实现音轨分离。操作快捷简单,用户无需下载安装,直接在线运行即可。

SongGenerator.io
SongGenerator.io 是一款免费在线AI歌曲生成器,利用先进的人工智能技术,用户可以在几秒钟内创建高质量、免版税的音乐。该平台支持通过输入文本描述、歌词或选择音乐风格来生成独特的音乐作品,适用于视频创作、广告制作、游戏开发、播客节目等多种场景。SongGenerator.io 让音乐创作变得简单高效,满足从新手到专业音乐人的需求。
暂无评论...