Kokoro TTS

9个月前更新 8K 00

工具介绍：Kokoro TTS是一款先进的AI文本转语音模型，拥有8200万参数，基于StyleTTS 2架构，提供高质量、自然的语音合成。

所在地：

美国

收录时间：

2025-04-09

访问官网手机查看

AI音频工具配音工具 # AI文本转语音 # AI文本转语音模型 # Kokoro TTS

访问官网

Kokoro TTS简介

Kokoro TTS是什么？

Kokoro TTS 是一款基于 StyleTTS 2 架构开发的轻量级、高性能 AI 语音合成模型，专注于提供自然流畅、多语言支持的文本转语音（TTS）解决方案。简洁小巧的架构蕴含强大的能力，使用仅为 8200 万参数量即可匹敌甚至赶超大模型级别的音质效果，具有极佳灵活广泛的应用特性，能轻松应用于内容生产、企业培训及无障碍场景等多维度服务中。

核心特性与功能

轻量高效，性能卓越
- 只有 8200 万，比同类模型参数量（XTTS: 4.67 亿，MetaVoice: 12 亿）要少，但是在语音自然度和流畅度上都表现不错。
- CPU/GPU 支持运行，使用 NVIDIA GPU 加速可实时播放音频（牺牲了部分速度）。
多语言支持，覆盖主流语种
- 英版（美式/英式）、法语、韩语、日语及普通话等多种语言和多种语音包，包括英语的 Bella/Sarah/Adam 版本等。
工具灵活，适配多元场景
- 自动内容分割：能够识别文字的章节与段落，便于后期对电子书或文章转音频的操作，输出后无排版痕迹。
- 可定制语音包：支持不同音色、语气的声音包供选择使用，可根据项目更换。
- OpenAI 生态兼容：无缝集成 OpenAI API，方便开发者扩展功能，融入各类应用程序。
开源免费，商业友好
- Apache 2.0 开源授权，个人或者商业免费使用，无版权声明，开发者可以在 Hugging Face 仓库直接获取代码或在 Colab 上教程直接试用。

应用场景

有声书与内容创作：迅速将你的电子书籍、博客等变成精美的有声作品（小众题材、多种语言版本都可以）。
播客与音视频制作：从你的文本文稿迅速转变为活灵活现的真实旁白，快速生成海量内容。
企业培训与教育：为企业的不同语言、不同国家训练视频或者手册提供声音注解。
无障碍服务：可以帮助你或身边视觉障碍的亲朋好友无障碍地收听网页、办公文档等等需要读出来的东西！

使用教程指南

Kokoro TTS 的使用有两种方式，分别是线上体验和本地安装，下面进行一一介绍：

一、在线使用教程

访问网站：进入 Kokoro TTS 在线平台，如https://kokorotts.online/ 。
输入文本：在输入框内输入或粘贴需要转成语音的文字（平台支持美式发音和英式发音），能识别自然语言文本的语境、标点和各种细微差别等，方便后期 TTS 合成。
选择语音：从平台上搭载的由 kokoro82m 开发的丰富的自然语音库中选择适合的声音进行转化；这些自然的文本转语音被录制加工得淋漓尽致。
生成并获取语音：点击一键合成后，kokoro tts 将会利用 AI 最新的语音生成技术，在几秒钟之内就将文字变成流畅自然的语音输出，并且匹配好节奏重音语气情感等等完美无瑕并且表达语调自然到位；语音格式高达 24k，在线就能播放。

二、本地使用教程

1.准备工作

安装依赖（git LFS, espeak-ng)：安装方式：git lfs install，用于大文件下载，Linux 系统下执行命令后可进行 git-lfs 的安装；espeak-ng 同理。其余的则为：pip install torch transformers phonemizer scipy munch 来安装 Pytorch 依赖包。（Windows/MacOS 可能需要再额外配置一步，可以搜索 espeak-ng 中间件 GitHub 下载问题解决）。
克隆模型仓库：将 Kokoro TTS 的 Hugging Face 仓库clone到本地，后续操作基于该目录进行。

2.构建模型并加载语音包

选择设备：CPU 还是 GPU 来加载运行，不同的设备会导致不同的运行速度。
加载模型和语音包：Kokoro TTS 内置默认的 Bella 和 Sarah 混合语包。通过代码来选择想要合成使用的语音名，VOICE_NAME = ‘af’ ，然后通过 VOICEPACK = torch.load(f’voices/{VOICE_NAME}.pt’, weights_only=True).to(device) 加载我们想要使用的声音包。

3.生成语音：输入文本内容，用模型加刚刚选好的语音包输出对应的语音与音素，audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME(0))。其中 MODEL 是已经建好好的模型，text 要输入的内容。

4.播放和保存语音：可以在浏览器里直接展示，在窗口里面就可以听到音频，能够更加直观地感受一下效果；可以点击另存为，用 wav.write(“output_audio.wav”, 24000, audio)，把文件保存成 .wav 的格式。

关于Kokoro TTS特别声明

本站新媒派提供的Kokoro TTS内容都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由新媒派实际控制，在2025年4月9日下午9:42收录时，该网页上的内容，都属于合规合法，后期网页的内容如有出现违规，可以直接联系网站管理员进行删除，新媒派不承担任何责任。

新媒派致力于优质、实用的运营工具和AI工具资源分享！本文地址https://pidoutv.com/sites/33200.html转载请注明

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Kokoro TTS

Kokoro TTS简介

Kokoro TTS是什么？

核心特性与功能

应用场景

使用教程指南

一、在线使用教程

二、本地使用教程

相关导航

Udio

魔音工坊

MusicMint

Soundful

MyVocal.AI

Supertone Shift

ElevenLabs

Brev.ai

暂无评论