
Kokoro TTS简介
Kokoro TTS是什么?
Kokoro TTS 是一款基于 StyleTTS 2 架构开发的轻量级、高性能 AI 语音合成模型,专注于提供自然流畅、多语言支持的文本转语音(TTS)解决方案。简洁小巧的架构蕴含强大的能力,使用仅为 8200 万参数量即可匹敌甚至赶超大模型级别的音质效果,具有极佳灵活广泛的应用特性,能轻松应用于内容生产、企业培训及无障碍场景等多维度服务中。

核心特性与功能
- 轻量高效,性能卓越
- 只有 8200 万,比同类模型参数量(XTTS: 4.67 亿,MetaVoice: 12 亿)要少,但是在语音自然度和流畅度上都表现不错。
- CPU/GPU 支持运行,使用 NVIDIA GPU 加速可实时播放音频(牺牲了部分速度)。
- 多语言支持,覆盖主流语种
- 英版(美式/英式)、法语、韩语、日语及普通话等多种语言和多种语音包,包括英语的 Bella/Sarah/Adam 版本等。
- 工具灵活,适配多元场景
- 自动内容分割:能够识别文字的章节与段落,便于后期对电子书或文章转音频的操作,输出后无排版痕迹。
- 可定制语音包:支持不同音色、语气的声音包供选择使用,可根据项目更换。
- OpenAI 生态兼容:无缝集成 OpenAI API,方便开发者扩展功能,融入各类应用程序。
- 自动内容分割:能够识别文字的章节与段落,便于后期对电子书或文章转音频的操作,输出后无排版痕迹。
- 开源免费,商业友好
- Apache 2.0 开源授权,个人或者商业免费使用,无版权声明,开发者可以在 Hugging Face 仓库直接获取代码或在 Colab 上教程直接试用。
应用场景
- 有声书与内容创作:迅速将你的电子书籍、博客等变成精美的有声作品(小众题材、多种语言版本都可以)。
- 播客与音视频制作:从你的文本文稿迅速转变为活灵活现的真实旁白,快速生成海量内容。
- 企业培训与教育:为企业的不同语言、不同国家训练视频或者手册提供声音注解。
- 无障碍服务:可以帮助你或身边视觉障碍的亲朋好友无障碍地收听网页、办公文档等等需要读出来的东西!
使用教程指南
Kokoro TTS 的使用有两种方式,分别是线上体验和本地安装,下面进行一一介绍:
一、在线使用教程
- 访问网站:进入 Kokoro TTS 在线平台,如https://kokorotts.online/ 。
- 输入文本:在输入框内输入或粘贴需要转成语音的文字(平台支持美式发音和英式发音),能识别自然语言文本的语境、标点和各种细微差别等,方便后期 TTS 合成。
- 选择语音:从平台上搭载的由 kokoro82m 开发的丰富的自然语音库中选择适合的声音进行转化;这些自然的文本转语音被录制加工得淋漓尽致。
- 生成并获取语音:点击一键合成后,kokoro tts 将会利用 AI 最新的语音生成技术,在几秒钟之内就将文字变成流畅自然的语音输出,并且匹配好节奏重音语气情感等等完美无瑕并且表达语调自然到位;语音格式高达 24k,在线就能播放。
二、本地使用教程
1.准备工作
- 安装依赖(git LFS, espeak-ng):安装方式:git lfs install,用于大文件下载,Linux 系统下执行命令后可进行 git-lfs 的安装;espeak-ng 同理。其余的则为:pip install torch transformers phonemizer scipy munch 来安装 Pytorch 依赖包。(Windows/MacOS 可能需要再额外配置一步,可以搜索 espeak-ng 中间件 GitHub 下载问题解决)。
- 克隆模型仓库:将 Kokoro TTS 的 Hugging Face 仓库clone到本地,后续操作基于该目录进行。
2.构建模型并加载语音包
- 选择设备:CPU 还是 GPU 来加载运行,不同的设备会导致不同的运行速度。
- 加载模型和语音包:Kokoro TTS 内置默认的 Bella 和 Sarah 混合语包。通过代码来选择想要合成使用的语音名,VOICE_NAME = ‘af’ ,然后通过 VOICEPACK = torch.load(f’voices/{VOICE_NAME}.pt’, weights_only=True).to(device) 加载我们想要使用的声音包。
3.生成语音:输入文本内容,用模型加刚刚选好的语音包输出对应的语音与音素,audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME(0))。其中 MODEL 是已经建好好的模型,text 要输入的内容。
4.播放和保存语音:可以在浏览器里直接展示,在窗口里面就可以听到音频,能够更加直观地感受一下效果;可以点击另存为,用 wav.write(“output_audio.wav”, 24000, audio),把文件保存成 .wav 的格式。
数据评估
关于Kokoro TTS特别声明
本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年4月9日 下午9:42收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。
与Kokoro TTS相关工具

Transcriptik是一款免费TikTok转录工具,用户只需粘贴视频链接,即可快速生成清晰、结构化的文字记录。平台支持AI增强识别,并在转录结果旁展示视频标题、创作者、缩略图、时长、观看次数和点赞数等关键数据。

yesTool AI
yesTool AI是一款一站式AI创作平台,集AI 视频、AI 音乐、AI 图片生成于一体,帮助用户在几分钟内从创意到成品创建高质量、个性化多媒体内容。平台包含文本转视频、多种风格视频制作、AI 配音和字幕、40+ 种语言、高清导出(最高 4K)及海量版权素材库。无论是营销推广、教育培训、社交媒体运营还是创意艺术创作,yesTool AI 都能提供高效、专业的解决方案。

腾讯智影
腾讯智影是一款云端智能视频创作工具,集素材搜集、视频剪辑、渲染导出和发布于一体的免费在线剪辑平台。强大的AI智能工具,支持文本配音、数字人播报、自动字幕识别、文章转视频、去水印、视频解说、横转竖等功能。

VoiceCanvas
一款基于深度学习的AI语音平台,专注提供多语言文本转语音(TTS)及个性化声音克隆服务。通过整合OpenAI TTS、AWS Polly等主流引擎,平台支持50+语言及方言,覆盖中文、英语、西班牙语等全球主流语种,满足跨语种内容创作、企业服务及个人娱乐需求。

兽音译者
兽音译者是一款在线兽语翻译与解码工具,支持中文、英语、法语等多语种,将人类语言转化为独特的“野兽吼叫体”并精准还原原文。适用于趣味聊天、科幻圈交流、跨语言创意沟通,让你的文字充满神秘与乐趣。

天谱乐
天谱乐是唱鸭旗下的AI音乐品牌,为用户提供个性化、智能化的音乐创作体验。它支持文本、图片和视频生成音乐,让创作变得简单便捷。利用先进的多模态理解与生成技术,天谱乐能够生成与图片和视频情感高度契合的音乐,并提供发行级的歌曲创作服务。无论是专业音乐人还是普通爱好者,天谱乐都能帮助您高效创作出独一无二的音乐作品。

Eleven Music
Eleven Music是由ElevenLabs推出的一款AI音乐创作工具,只需要写一句话就可以自动创造原创录音室级别的声音,支持多语言人声或纯器乐,涵盖流行、电子、爵士、电影配乐等多种风格。内置歌词编辑、乐器替换、口型同步等功能,几秒内生成高保真音频,适用于视频配乐、广告、游戏、播客等商业场景,让音乐创作更高效、更灵活。

FreeTTS
FreeTTS 是一个在线文本转语音转换器,支持几乎所有语言。它旨在生成高质量的音频文件,具有自然的语音效果,非常适合各种项目。这个工具是免费的,并且允许商业用途。

Speakatoo
Speakatoo 是一个逼真的AI语音生成器,可以将书面文本转换为自然的语音。用户可以输入文本,选择多种语音选项,并下载生成的音频文件(mp3 或 wav 格式)。支持超过 130 种语言和 850 多种独特的语音。

readspeaker
ReadSpeaker 提供全球领先的文本转语音(TTS)技术,支持超过 50 种语言和 200 种语音选择。通过 ReadSpeaker,企业可以轻松实现内容无障碍访问,增强品牌声音,并为有阅读困难或视力障碍的用户提供便利。

ChatTTS
ChatTTS是专为对话场景设计的文本转语音(Text-to-Speech, TTS)生成模型,它支持中英文,并能生成自然流畅的对话语音,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。

Sesame AI
Sesame AI是一款领先的 AI 语音合成平台,支持多语言、情感表达与自然对话,打造媲美真人的高保真语音体验。 通过深度学习与自然语言处理技术,Sesame AI 可生成具备语调、节奏与情绪的类人声音,适用于播客、有声书、虚拟助手、教育课程、客服系统等多种场景。

Zonos TTS
Zonos TTS是一个AI驱动的多语言文本转语音平台,支持语音克隆与情感调控,打造自然生动的高保真语音体验。 通过上传 10–30 秒音频即可实现个性化语音克隆,支持中文、英文、日语、法语、德语等多语言合成,具备情绪调节(如快乐、悲伤、愤怒、恐惧)与音频前缀输入功能。

AIVA
AIVA是一个AI音乐生成器,它可以在几秒钟内生成新的歌曲,支持超过250种不同的风格,用户可以从预定义的风格中选择,也可以通过上传原始音频文件进行创作。

d1tools TTS
d1tools TTS是一款免费的文本转语音工具,提供语音合成服务,支持多种语言,包括中文、英语、日语、韩语、法语、德语、西班牙语、阿拉伯语等74种语言。用户可以根据自己的需求选择不同的声音角色,比如有男声、女声、儿童声、老人声等共318个主播声音。

HeyMusic AI
HeyMusic AI是一个AI音乐生成工具,轻松地使用 AI 从您自己的歌词或简单提示中生成迷人的音乐。这个平台极大地简化了音乐创作的流程,无论您是音乐新手还是资深创作者,都能轻松地将音乐构想变为现实。
暂无评论...













