
Kokoro TTS简介
Kokoro TTS是什么?
Kokoro TTS 是一款基于 StyleTTS 2 架构开发的轻量级、高性能 AI 语音合成模型,专注于提供自然流畅、多语言支持的文本转语音(TTS)解决方案。简洁小巧的架构蕴含强大的能力,使用仅为 8200 万参数量即可匹敌甚至赶超大模型级别的音质效果,具有极佳灵活广泛的应用特性,能轻松应用于内容生产、企业培训及无障碍场景等多维度服务中。

核心特性与功能
- 轻量高效,性能卓越
- 只有 8200 万,比同类模型参数量(XTTS: 4.67 亿,MetaVoice: 12 亿)要少,但是在语音自然度和流畅度上都表现不错。
- CPU/GPU 支持运行,使用 NVIDIA GPU 加速可实时播放音频(牺牲了部分速度)。
- 多语言支持,覆盖主流语种
- 英版(美式/英式)、法语、韩语、日语及普通话等多种语言和多种语音包,包括英语的 Bella/Sarah/Adam 版本等。
- 工具灵活,适配多元场景
- 自动内容分割:能够识别文字的章节与段落,便于后期对电子书或文章转音频的操作,输出后无排版痕迹。
- 可定制语音包:支持不同音色、语气的声音包供选择使用,可根据项目更换。
- OpenAI 生态兼容:无缝集成 OpenAI API,方便开发者扩展功能,融入各类应用程序。
- 自动内容分割:能够识别文字的章节与段落,便于后期对电子书或文章转音频的操作,输出后无排版痕迹。
- 开源免费,商业友好
- Apache 2.0 开源授权,个人或者商业免费使用,无版权声明,开发者可以在 Hugging Face 仓库直接获取代码或在 Colab 上教程直接试用。
应用场景
- 有声书与内容创作:迅速将你的电子书籍、博客等变成精美的有声作品(小众题材、多种语言版本都可以)。
- 播客与音视频制作:从你的文本文稿迅速转变为活灵活现的真实旁白,快速生成海量内容。
- 企业培训与教育:为企业的不同语言、不同国家训练视频或者手册提供声音注解。
- 无障碍服务:可以帮助你或身边视觉障碍的亲朋好友无障碍地收听网页、办公文档等等需要读出来的东西!
使用教程指南
Kokoro TTS 的使用有两种方式,分别是线上体验和本地安装,下面进行一一介绍:
一、在线使用教程
- 访问网站:进入 Kokoro TTS 在线平台,如https://kokorotts.online/ 。
- 输入文本:在输入框内输入或粘贴需要转成语音的文字(平台支持美式发音和英式发音),能识别自然语言文本的语境、标点和各种细微差别等,方便后期 TTS 合成。
- 选择语音:从平台上搭载的由 kokoro82m 开发的丰富的自然语音库中选择适合的声音进行转化;这些自然的文本转语音被录制加工得淋漓尽致。
- 生成并获取语音:点击一键合成后,kokoro tts 将会利用 AI 最新的语音生成技术,在几秒钟之内就将文字变成流畅自然的语音输出,并且匹配好节奏重音语气情感等等完美无瑕并且表达语调自然到位;语音格式高达 24k,在线就能播放。
二、本地使用教程
1.准备工作
- 安装依赖(git LFS, espeak-ng):安装方式:git lfs install,用于大文件下载,Linux 系统下执行命令后可进行 git-lfs 的安装;espeak-ng 同理。其余的则为:pip install torch transformers phonemizer scipy munch 来安装 Pytorch 依赖包。(Windows/MacOS 可能需要再额外配置一步,可以搜索 espeak-ng 中间件 GitHub 下载问题解决)。
- 克隆模型仓库:将 Kokoro TTS 的 Hugging Face 仓库clone到本地,后续操作基于该目录进行。
2.构建模型并加载语音包
- 选择设备:CPU 还是 GPU 来加载运行,不同的设备会导致不同的运行速度。
- 加载模型和语音包:Kokoro TTS 内置默认的 Bella 和 Sarah 混合语包。通过代码来选择想要合成使用的语音名,VOICE_NAME = ‘af’ ,然后通过 VOICEPACK = torch.load(f’voices/{VOICE_NAME}.pt’, weights_only=True).to(device) 加载我们想要使用的声音包。
3.生成语音:输入文本内容,用模型加刚刚选好的语音包输出对应的语音与音素,audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME(0))。其中 MODEL 是已经建好好的模型,text 要输入的内容。
4.播放和保存语音:可以在浏览器里直接展示,在窗口里面就可以听到音频,能够更加直观地感受一下效果;可以点击另存为,用 wav.write(“output_audio.wav”, 24000, audio),把文件保存成 .wav 的格式。
数据评估
关于Kokoro TTS特别声明
本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年4月9日 下午9:42收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。
与Kokoro TTS相关工具

来趣文字转语音-一款AI拟人配音、高效智能识别的文字转语音工具。它不仅具备文字转语音、视频提取文字和视频提取音频的功能,还拥有独特的AI情绪配音,可以为用户提供更加真实的情感陪护。

Uberduck AI
Uberduck AI是一个AI在线文本转语音克隆平台,它能够将文本转换为语音。这个平台提供了基于AI技术的语音合成器,用户可以使用超过5000种富有表现力的声音来制作AI语音合成,包括名人、卡通人物、说唱歌手等。

Parakeet TDT
Parakeet TDT是一个语音识别转文字在线工具,基于NVIDIA 推出自动语音识别(ASR)模型构建,能够帮助我们快速精准地识别语音并将其转换为文字内容,具备轻量部署、精准时间戳与自动格式优化等多项优势,广泛适用于字幕生成、会议记录、播客转写等场景。

Crikk
Crikk是一个 先进的文本转语音(TTS)平台,支持 90+ 种语言,包括 英语、西班牙语、法语、德语、中文 等,适用于 配音、有声书、教育内容、客户服务自动化 等场景。

DIKTATORIAL Suite
DIKTATORIAL Suite 是一款在线AI音频母带处理工具,它革新了音乐完善的方式。与传统的母带处理流程不同,DIKTATORIAL Suite 集成了文本提示,以促进用户与虚拟音频工程师之间的无缝沟通,确保根据个人偏好进行精确的定制。通过清晰的音频输出和高保真的母带处理,该套件在几秒钟内保证了专业级的结果。

Mubert
Mubert 是一个使用人工智能生成音乐的平台。它能根据简单的文本提示来创建音乐,可以根据流派、情绪、基调或节拍来生成音乐。它利用人工智能技术生成无限循环的背景音乐,用户可以调整音乐的节奏、情绪、音高等参数,以满足不同场景的需求。这种音乐生成方式非常适合需要长时间、连续、个性化的背景音乐的应用场景。

MusicHero.ai
MusicHero.ai是一个免费AI文本生成音乐工具,利用先进的 Sunov3.5 技术,通过简单的文本提示快速生成高质量音乐。支持多种音乐风格,包括流行、古典、电子和爵士,适用于视频制作、内容创作、个人创作和游戏开发等场景。

Voicemod
Voicemod是一个免费实时语音转换器和音效面板软件,它可以改变你的声音并播放各种音效。它具有超过100种以上的变声情境,可以直接连接到游戏和其他应用程序,如Zoom、Google Meet、Skype、Discord等。

Suno Top
Suno Top 是一个专门提供免费下载 Suno AI 生成音乐的网站。用户可以通过这个平台轻松下载 Suno 的.MP3文件、歌词、专辑封面和简介。这个工具旨在让用户无缝获取 Suno 音乐和提示词,操作简单,只需复制、粘贴即可。

音刻Inkr
音刻(Inkr)是一款基于 AI 的多语言音视频转录工具,支持极速转录、说话人识别与智能笔记生成,适用于会议记录、采访整理、字幕制作等场景。FLASH 模式转录速度提升 8 倍,支持100+语言,助你高效捕捉每一段语音内容。

Remusic
Remusic 是一个免费的AI音乐、歌曲创作工具,允许用户通过简单的文字提示生成独特的音乐、歌词和封面。无论你是音乐创作者、视频博主还是教育工作者,Remusic 都能帮助你轻松创作和享受音乐。

Soundful
Soundful是一款基于人工智能的AI音乐生成器工具,主要用于生成适合视频、直播、播客等内容的免版税背景音乐。它提供了多种风格和情绪的模板,让用户可以根据喜好和目的选择并生成独一无二的音乐作品。此外,Soundful还允许用户下载高质量的音轨和分轨,对音乐进行进一步的编辑和混合,以及自定义音乐的参数。

音剪
音剪是喜马拉雅推出的集音频创作、剪辑和制作于一体的AI平台。它不仅拥有强大的在线音频剪辑功能,还结合了AI技术,提供多种辅助工具,包括AI分段、AI降噪、字幕下载、音量均衡、声音美化和智能配乐等,帮助创作者轻松生成优秀的音频作品。无论你是播客创作者、有声书制作人,还是直播主播,音剪都能满足你对音频创作的各种需求。

SongGenerator.io
SongGenerator.io 是一款免费在线AI歌曲生成器,利用先进的人工智能技术,用户可以在几秒钟内创建高质量、免版税的音乐。该平台支持通过输入文本描述、歌词或选择音乐风格来生成独特的音乐作品,适用于视频创作、广告制作、游戏开发、播客节目等多种场景。SongGenerator.io 让音乐创作变得简单高效,满足从新手到专业音乐人的需求。

Fish Speech
Fish Speech 是一个开源的文本转语音(TTS)解决方案,基于 VQ-GAN、Llama 和 VITS 技术开发。它提供多语言支持,包括中文、日语和英语,能够生成高质量的语音合成。这个工具特别适合游戏配音等场景,允许用户自定义和训练专属的语音模型。

Vocalist.ai
Vocalist.ai是一个人工智能平台,它能够将人声录音转化为专业水准的歌唱和说唱表演。这个工具使用定制的人声模型,让用户可以从即使是随意录制的音频中创作出工作室级别的人声。
暂无评论...