
Kokoro TTS简介
Kokoro TTS是什么?
Kokoro TTS 是一款基于 StyleTTS 2 架构开发的轻量级、高性能 AI 语音合成模型,专注于提供自然流畅、多语言支持的文本转语音(TTS)解决方案。简洁小巧的架构蕴含强大的能力,使用仅为 8200 万参数量即可匹敌甚至赶超大模型级别的音质效果,具有极佳灵活广泛的应用特性,能轻松应用于内容生产、企业培训及无障碍场景等多维度服务中。

核心特性与功能
- 轻量高效,性能卓越
- 只有 8200 万,比同类模型参数量(XTTS: 4.67 亿,MetaVoice: 12 亿)要少,但是在语音自然度和流畅度上都表现不错。
- CPU/GPU 支持运行,使用 NVIDIA GPU 加速可实时播放音频(牺牲了部分速度)。
- 多语言支持,覆盖主流语种
- 英版(美式/英式)、法语、韩语、日语及普通话等多种语言和多种语音包,包括英语的 Bella/Sarah/Adam 版本等。
- 工具灵活,适配多元场景
- 自动内容分割:能够识别文字的章节与段落,便于后期对电子书或文章转音频的操作,输出后无排版痕迹。
- 可定制语音包:支持不同音色、语气的声音包供选择使用,可根据项目更换。
- OpenAI 生态兼容:无缝集成 OpenAI API,方便开发者扩展功能,融入各类应用程序。
- 自动内容分割:能够识别文字的章节与段落,便于后期对电子书或文章转音频的操作,输出后无排版痕迹。
- 开源免费,商业友好
- Apache 2.0 开源授权,个人或者商业免费使用,无版权声明,开发者可以在 Hugging Face 仓库直接获取代码或在 Colab 上教程直接试用。
应用场景
- 有声书与内容创作:迅速将你的电子书籍、博客等变成精美的有声作品(小众题材、多种语言版本都可以)。
- 播客与音视频制作:从你的文本文稿迅速转变为活灵活现的真实旁白,快速生成海量内容。
- 企业培训与教育:为企业的不同语言、不同国家训练视频或者手册提供声音注解。
- 无障碍服务:可以帮助你或身边视觉障碍的亲朋好友无障碍地收听网页、办公文档等等需要读出来的东西!
使用教程指南
Kokoro TTS 的使用有两种方式,分别是线上体验和本地安装,下面进行一一介绍:
一、在线使用教程
- 访问网站:进入 Kokoro TTS 在线平台,如https://kokorotts.online/ 。
- 输入文本:在输入框内输入或粘贴需要转成语音的文字(平台支持美式发音和英式发音),能识别自然语言文本的语境、标点和各种细微差别等,方便后期 TTS 合成。
- 选择语音:从平台上搭载的由 kokoro82m 开发的丰富的自然语音库中选择适合的声音进行转化;这些自然的文本转语音被录制加工得淋漓尽致。
- 生成并获取语音:点击一键合成后,kokoro tts 将会利用 AI 最新的语音生成技术,在几秒钟之内就将文字变成流畅自然的语音输出,并且匹配好节奏重音语气情感等等完美无瑕并且表达语调自然到位;语音格式高达 24k,在线就能播放。
二、本地使用教程
1.准备工作
- 安装依赖(git LFS, espeak-ng):安装方式:git lfs install,用于大文件下载,Linux 系统下执行命令后可进行 git-lfs 的安装;espeak-ng 同理。其余的则为:pip install torch transformers phonemizer scipy munch 来安装 Pytorch 依赖包。(Windows/MacOS 可能需要再额外配置一步,可以搜索 espeak-ng 中间件 GitHub 下载问题解决)。
- 克隆模型仓库:将 Kokoro TTS 的 Hugging Face 仓库clone到本地,后续操作基于该目录进行。
2.构建模型并加载语音包
- 选择设备:CPU 还是 GPU 来加载运行,不同的设备会导致不同的运行速度。
- 加载模型和语音包:Kokoro TTS 内置默认的 Bella 和 Sarah 混合语包。通过代码来选择想要合成使用的语音名,VOICE_NAME = ‘af’ ,然后通过 VOICEPACK = torch.load(f’voices/{VOICE_NAME}.pt’, weights_only=True).to(device) 加载我们想要使用的声音包。
3.生成语音:输入文本内容,用模型加刚刚选好的语音包输出对应的语音与音素,audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME(0))。其中 MODEL 是已经建好好的模型,text 要输入的内容。
4.播放和保存语音:可以在浏览器里直接展示,在窗口里面就可以听到音频,能够更加直观地感受一下效果;可以点击另存为,用 wav.write(“output_audio.wav”, 24000, audio),把文件保存成 .wav 的格式。
数据评估
关于Kokoro TTS特别声明
本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年4月9日 下午9:42收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。
与Kokoro TTS相关工具

团子AI是一款在线人工智能音乐处理工具箱,提供伴奏人声提取、任意乐器分离和无损升降调等多种有趣且实用的功能。基于 MIT 协议的开源项目 Spleeter 制作,使用 Python/Tensorflow 开发,通过深度神经网络(DNN)实现音轨分离。操作快捷简单,用户无需下载安装,直接在线运行即可。

CosyVoice
CosyVoice 是阿里巴巴通义实验室发布的开源语音生成模型。它专注于自然语音生成,支持多语言、音色和情感控制。CosyVoice 能够生成中、英、日、粤、韩五种语言的语音,并且可以在短短几秒钟内克隆声音,适用于智能助手、教育、音视频制作和智能客服等多种场景。

TTSReader
TTSReader 是一款免费的在线文本到语音阅读器。它可以将任何类型的文本转换为语音,并以自然动听的声音大声读出。

趣丸千音
趣丸千音(All Voice Lab)是趣丸科技推出的AI语音创作平台。以自研的MaskGCT语音大模型为核心,提供一站式智能语音解决方案。集成文本转语音、视频翻译、声音克隆等多元能力,支持多语种多音色互换,帮助全球用户高效创作,告别语言障碍。

Eleven Music
Eleven Music是由ElevenLabs推出的一款AI音乐创作工具,只需要写一句话就可以自动创造原创录音室级别的声音,支持多语言人声或纯器乐,涵盖流行、电子、爵士、电影配乐等多种风格。内置歌词编辑、乐器替换、口型同步等功能,几秒内生成高保真音频,适用于视频配乐、广告、游戏、播客等商业场景,让音乐创作更高效、更灵活。

AudioScribe.io
AudioScribe.io 是一款AI语音转文字服务平台,致力于将音频和视频录音准确转化为文字。该平台通过领先的AI技术,确保高效、准确地转写,同时支持多语言、多格式导出,并具备全文搜索和深度文本分析功能。AudioScribe.io 专为从自由职业者到财富 500 强公司的所有用户打造,确保您在会议、面试或重要对话中不会错过任何一个单词。

ScreenApp
ScreenApp是一款纯浏览器端的 AI 录屏与内容总结平台。不需要下载,使用网页或Chrome拓展,实时抓取屏幕、系统音、麦克风和摄像头,并在云端自动完成 转录、翻译、摘要、行动项提取与对话式检索。作为超百万用户信赖的 “第二大脑”,它通过智能转录、自动总结与深度整合,让每段录音、每场会议都成为可追溯、可利用的价值资产。

Happy Scribe
Happy Scribe是一款 AI 驱动的音视频转文字平台,支持 120 多种语言的自动转录、字幕生成与翻译服务。用户可快速处理会议录音、教学视频、采访内容等,生成高精度文本和多语字幕。

声咔AI配音
声咔AI配音是一款由咪酷科技自主研发的在线智能语音合成配音工具。它利用先进的语音合成技术(TTS),可以轻松实现与真人配音相媲美的效果。这款工具不仅支持多情感语音的自动化合成配音,而且配音速度非常快,广泛应用于视频配音、广告配音、教育等多个行业。

NovaVSS
NovaVSS是一款新一代的AI音视频音轨分离工具,它基于VSS领域最顶级的人工智能算法,并且经过大量电影电视数据训练和调优后的AI模型来实现。它专门用于从电影、电视等视频中精准提取人声、背景音乐和特效声。

百度AI歌词生成器
百度AI歌词生成器是一款使用友好的在线歌词创作工具,这款工具运用先进的人工智能技术,能够灵活创作出多样化的歌词风格,满足各种音乐创作的需要。只需要选择场景、人物、心情等关键词,10秒钟就能生成一首意境唯美的、专属于你的一首歌。它的浪漫氛围感会让你在创作过程中感受到无比的温馨。

知意配音
知意配音作为一款专业的文字转语音配音软件,通过AI语音合成技术来实现视频配音、广告配音等制作。

蘑兔听记
蘑兔听记是深圳制片帮网络科技有限公司研发的音视频转文字工具,超98%的语音识别准确率,30分钟音频只需3分钟就可转成文字,支持20多种方言、30余种外语,极大提高了工作和学习效率。

EmotiVoice-Plus
EmotiVoice-Plus 是网易有道推出的增强版文本转语音(TTS)引擎,它在原有的 EmotiVoice 基础上增加了支持生成多人故事剧本的功能。支持中英文双语和2000多种声音类型,其独特的情感合成功能可以生成包含快乐、兴奋、悲伤、愤怒等多种情感的语音,适用于多角色对话和复杂剧本创作。
来趣文字转语音
来趣文字转语音-一款AI拟人配音、高效智能识别的文字转语音工具。它不仅具备文字转语音、视频提取文字和视频提取音频的功能,还拥有独特的AI情绪配音,可以为用户提供更加真实的情感陪护。

闪电配音网
闪电配音网是专业在线真人配音服务网站,闪电配音,配音界的“滴滴”,在配音主播和需求方之间实现配音交易撮合。
暂无评论...








