YuE

1年前发布 2K 00

工具介绍：YuE是由香港科技大学开发的开源音乐生成模型，专注于从给定的歌词生成完整的音乐音频。YuE 支持多种音乐风格和语言，能够生成高质量的声乐和伴奏部分，适用于各种音乐创作需求。通过 YuE，用户可以轻松生成长达 5 分钟的完整歌曲，实现创意音乐制作。

收录时间：

2025-02-09

访问官网手机查看

AI大模型 # AI音乐创作工具 # YuE # 全曲音乐生成 # 开源音乐生成模型 # 歌词生成音乐

YuE

YuE简介

YuE是由香港科技大学开发的开源音乐生成模型，专注于从给定的歌词生成完整的音乐音频。YuE 支持多种音乐风格和语言，能够生成高质量的声乐和伴奏部分，适用于各种音乐创作需求。通过 YuE，用户可以轻松生成长达 5 分钟的完整歌曲，实现创意音乐制作。

YuE：香港科技大学推出的开源音乐生成模型

YuE：香港科技大学推出的开源音乐生成模型

YuE的主要功能特点

全曲生成：YuE 能够生成长达 5 分钟的完整音乐音频，包括人声和伴奏部分。
歌词条件生成：YuE 在整个歌曲生成过程中跟踪歌词条件，保持音乐结构的连贯性。
多样化音乐风格：支持多种音乐风格，如爵士、流行、说唱、民谣等，提供丰富的音乐选择。
语音和声乐技巧：能够生成复杂的声乐技巧，如咆哮、混合声、即兴演唱等，使音乐更具表现力。
多语言支持：支持多种语言，包括英语、普通话、粤语、日语和韩语，满足不同语言需求。
灵活的技术应用：引入语义增强音频标记器、双标记技术和歌词链式思维等技术，实现高质量音乐生成。
三阶段训练方案：采用三阶段训练方案，确保音乐生成的可扩展性、音乐性和歌词可控性。

技术原理

YuE 的技术原理主要包括以下几个方面：

语义增强音频分词器：YuE 使用语义增强音频分词器来降低训练成本并加速收敛，更好地理解歌词的语义信息，与音乐信号相结合，生成更符合歌词内容的音乐。
双分词技术：YuE 提出了一种双分词技术，在不修改 LLaMa 解码器-only 架构的情况下实现音轨同步的声乐-乐器建模，确保两者在节奏和旋律上的协调性。
歌词链式思维生成：YuE 引入了歌词链式思维生成技术，支持模型在遵循歌词条件的情况下逐步生成整首歌曲，确保生成的歌曲在整体结构上保持连贯性。
三阶段训练方案：YuE 的训练方案分为三个阶段：基础模型训练、风格和情感对齐、偏好纠正，通过这些阶段确保生成的音乐更符合人类的审美标准。

这些技术使得YuE能够生成高质量、连贯且符合歌词内容的音乐，支持多种音乐风格和多语言。

YuE应用场景

音乐创作：音乐制作人可以利用YuE快速生成旋律和伴奏。

影视配乐：在电影、电视剧和短视频制作中，YuE可以为不同场景生成合适的背景音乐。

游戏开发：游戏开发者可以使用YuE生成游戏中的音乐，增强游戏的沉浸感。

教育和研究：音乐教育者和研究人员可以利用YuE进行音乐创作的教学和研究。

项目地址：https://map-yue.github.io/

GitHub：https://github.com/multimodal-art-projection/YuE

关于YuE特别声明

本站新媒派提供的YuE内容都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由新媒派实际控制，在2025年2月9日上午11:11收录时，该网页上的内容，都属于合规合法，后期网页的内容如有出现违规，可以直接联系网站管理员进行删除，新媒派不承担任何责任。

新媒派致力于优质、实用的运营工具和AI工具资源分享！本文地址https://pidoutv.com/sites/31319.html转载请注明

相关导航

Hibiki

Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译（也称为同步翻译）的模型。与离线翻译不同，离线翻译需要等待源语句结束后才开始翻译，而 Hibiki 能够实时积累足够的上下文，以逐块生成正确的翻译。用户在讲话时，Hibiki 会在目标语言中生成自然的语音，并提供文本翻译。

智谱清流

智谱清流是智谱AI推出的企业级AI智能体开发平台，旨在帮助企业快速构建和部署AI应用，实现业务流程的智能化升级。该平台基于智谱全模型矩阵和先进的大模型技术（如GLM系列），提供了一整套工具和服务，支持多种集成方式，满足不同企业的智能化需求。

书生通用大模型

书生通用大模型是由上海人工智能实验室与商汤科技联合发布的大型预训练模型。它包括多个基础模型，如书生·多模态、书生·浦语和书生·天际等。这些模型旨在支持科研创新和产业应用，提供一个全链条开源的研发与应用平台。

言犀

言犀是京东自营智能人机交互平台，助力企业服务数智化转型。以AI技术驱动，从文字、语音到多模态交互，从对话智能到情感智能，聚焦体验、效率与转化，旨在打造新一代智能人机交互平台，面向不同行业和客户场景助力企业服务和营销实现数智化转型升级。

M2UGen

M2UGen是一个由腾讯和新加坡国立大学共同研发的多模态音乐生成模型，它具备音乐生成、理解和编辑的能力。具体来说，M2UGen可以接收文字、图片、视频或音频作为输入，然后生成与之相匹配的音乐。

Imagen 3

Imagen 3是Google DeepMind开发的最新文生图大模型。它能够根据文本提示生成高质量、高分辨率的图像，具有更好的细节和丰富的光照效果。这个模型支持多种视觉风格，从照片般逼真到油画质感，甚至黏土动画场景。Imagen 3还改进了对自然语言提示的理解，简化了生成所需图像的过程，并采用了最新的安全和责任技术，包括隐私保护和内容安全。

Cherry Studio

Cherry Studio 是一个支持多模型服务的AI桌面客户端，支持 Windows、macOS 和 Linux，未来还将支持移动端。用户可以通过Cherry Studio无缝集成多种大型语言模型 (LLM)，包括 OpenAI、Anthropic 和 Gemini 等，甚至本地部署的模型，确保数据隐私和安全。

RAGFlow

RAGFlow是一款开源 RAG 引擎，支持复杂格式文档解析、语义检索与智能问答，兼具多模态理解、引用溯源与代码执行功能，适合构建企业级 AI 助理与知识系统。

暂无评论

您必须登录才能参与评论！

none

暂无评论...