Spark-TTS

12个月前更新 15K 00

工具介绍：Spark-TTS是SparkAudio团队开源的基于大型语言模型（LLM）的高效文本转语音（TTS）工具，无需额外的生成模型，直接从LLM预测的编码中重建音频，实现零样本文本到语音的转换。Spark-TTS支持中英双语，具备跨语言合成能力，可通过参数调整（如性别、音调、语速）生成虚拟说话者的声音，满足多样化需求。

收录时间：

2025-03-06

访问官网手机查看

AI音频工具开源工具 # AI语音克隆工具 # AI语音生成工具 # 多语言语音生成工具 # 文本转语音开源工具

访问官网

Spark-TTS简介

Spark-TTS是什么？

Spark-TTS是一个由大型语言模型（LLM）驱动的先进文本转语音（TTS）系统，具备零样本语音克隆、中英文双语合成和可控语音生成等功能。直接从 Qwen2.5 语言模型代码输出重建音频，并不需要额外的声学模型。支持上传一段音频/录音作为语音模板进行克隆，同时可以控制性别、音高、语速参数来生成对应的发音，声音流畅自然且充满变化，具有多种不同用途场景。其提供了命令行及 webUI 操作入口两个界面对外交互。适配研究、内容创作、语音助手、教育等多种应用场景。

主要功能特点

零样本语音克隆：无需训练数据，几秒钟的参考音频就能“复刻”说话者的声音，用于个性化语音合成与虚拟角色塑造。
中英文双语支持：可以合成中文或英文语音，也可以一句话中混用中英两种语言。
可控语音生成：支持改变性别、音调、语速等参数，创造出不同风格的虚拟说话人，适配不同内容场景。
简化架构，高效推理：基于 Qwen2.5 构建而来，可以直接在 LLM 预测出的代码上重建出音频，不需要声学模型的参与。
Web UI 与命令行双支持：提供图形界面及 CLI 命令行工具，支持上传或者录音，面向不同的用户群体。
跨平台部署能力：本地部署和云端推理皆可，支持集成到各种内容创作平台、语音助手以及教育软件应用等场景。
开源透明，研究友好：已在 GitHub 上开源发布，使用 Apache 2.0 许可证，适合学术研究、产品原型开发与商业集成。

应用场景

AI 虚拟主播与配音
个性化语音助手与客服机器人
有声书、播客与短视频配音
教育内容语音生成与无障碍辅助
多语言语音研究与语音 UI 原型设计

Spark-TTS的使用方法

1. 环境准备

安装依赖：确保已安装 Python（建议版本 3.12 或更高）和 Conda 环境管理工具。

克隆代码仓库：运行以下命令将 Spark-TTS 仓库克隆到本地：

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

创建虚拟环境：使用 Conda 创建并激活虚拟环境：

conda create -n sparktts -y python=3.12
conda activate sparktts

安装依赖库：运行以下命令安装所需依赖：

pip install -r requirements.txt

2. 下载预训练模型

通过 Python 下载：

from huggingface_hub import snapshot_download
snapshot_download(“SparkAudio/Spark-TTS-0.5B”, local_dir=”pretrained_models/Spark-TTS-0.5B”)

通过 Git 下载：

mkdir -p pretrained_models
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

3. 基本使用

运行示例脚本：

cd example
bash infer.sh

命令行生成语音：

python -m cli.inference \
–text “需要合成的文本” \
–device 0 \
–save_dir “保存音频的路径” \
–model_dir pretrained_models/Spark-TTS-0.5B \
–prompt_text “提示音频的文本内容” \
–prompt_speech_path “提示音频的路径”

4. 使用 Web 界面

启动 Web UI：运行以下命令启动界面：

python webui.py –device 0

功能支持：Web 界面支持语音克隆和语音生成，可上传参考音频或直接录制音频。

5. 可选功能

语音克隆：上传参考音频，生成与参考音频相似的语音。
语音参数调整：通过调整性别、语速、音高等参数，生成个性化语音。

Spark-TTS的GitHub仓库：https://github.com/SparkAudio/Spark-TTS

Spark-TTS官网无法访问的常见原因及解决方案

如果你经常打不开Spark-TTS网站，最可能的原因有以下一些。别怕，还有办法帮助你顺利访问网站。

一、可能被软件屏蔽：部分应用，如微信、QQ 等自带的浏览应用可能就屏蔽了部分网址不让打开。

解决方案：采用自己手机的浏览器打开该网址，如Safari、Chrome等，而不是用微信或QQ的浏览器。

二、浏览器拦截：有时浏览器会错误地将网站判断成不安全、为不良网站而封锁。实际上，这并不一定意味着网站有问题，是因为浏览器厂商在其封锁列表之中的缘故。

解决方案：通过其它浏览器可能打开，例如：iphone用户Safari，windows用户（微软），Edge。推荐独立浏览器：Alook浏览器、X 浏览器、VIA 浏览器等

三、网络连接问题：如果你的网络速度比较慢，或所在运营商没有对该网站进行最佳化，也会出现无法打开的情况。

解决方案：切换到其他网络环境（wifi、移动数据等）用网络加速器让访问更顺畅科学上网（如访问 google 网站）

以上方法应该能解决99.99%网站打不开了。如果这些也无济于事，你可以留言咨询或微信联系我们进行寻求帮助！

关于Spark-TTS特别声明

本站新媒派提供的Spark-TTS内容都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由新媒派实际控制，在2025年3月6日上午9:52收录时，该网页上的内容，都属于合规合法，后期网页的内容如有出现违规，可以直接联系网站管理员进行删除，新媒派不承担任何责任。

新媒派致力于优质、实用的运营工具和AI工具资源分享！本文地址https://pidoutv.com/sites/32269.html转载请注明

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Spark-TTS

Spark-TTS简介

Spark-TTS是什么？

主要功能特点

应用场景

Spark-TTS的使用方法

Spark-TTS官网无法访问的常见原因及解决方案

相关导航

音述AI

JD-GUI

OpenBench

Social-Auto-Upload

食用手册

星声AI

微信视频号下载工具

TME Studio

暂无评论