
YuE简介
YuE是由香港科技大学开发的开源音乐生成模型,专注于从给定的歌词生成完整的音乐音频。YuE 支持多种音乐风格和语言,能够生成高质量的声乐和伴奏部分,适用于各种音乐创作需求。通过 YuE,用户可以轻松生成长达 5 分钟的完整歌曲,实现创意音乐制作。

YuE:香港科技大学推出的开源音乐生成模型
YuE的主要功能特点
- 全曲生成:YuE 能够生成长达 5 分钟的完整音乐音频,包括人声和伴奏部分。
- 歌词条件生成:YuE 在整个歌曲生成过程中跟踪歌词条件,保持音乐结构的连贯性。
- 多样化音乐风格:支持多种音乐风格,如爵士、流行、说唱、民谣等,提供丰富的音乐选择。
- 语音和声乐技巧:能够生成复杂的声乐技巧,如咆哮、混合声、即兴演唱等,使音乐更具表现力。
- 多语言支持:支持多种语言,包括英语、普通话、粤语、日语和韩语,满足不同语言需求。
- 灵活的技术应用:引入语义增强音频标记器、双标记技术和歌词链式思维等技术,实现高质量音乐生成。
- 三阶段训练方案:采用三阶段训练方案,确保音乐生成的可扩展性、音乐性和歌词可控性。
技术原理
YuE 的技术原理主要包括以下几个方面:
- 语义增强音频分词器:YuE 使用语义增强音频分词器来降低训练成本并加速收敛,更好地理解歌词的语义信息,与音乐信号相结合,生成更符合歌词内容的音乐。
- 双分词技术:YuE 提出了一种双分词技术,在不修改 LLaMa 解码器-only 架构的情况下实现音轨同步的声乐-乐器建模,确保两者在节奏和旋律上的协调性。
- 歌词链式思维生成:YuE 引入了歌词链式思维生成技术,支持模型在遵循歌词条件的情况下逐步生成整首歌曲,确保生成的歌曲在整体结构上保持连贯性。
- 三阶段训练方案:YuE 的训练方案分为三个阶段:基础模型训练、风格和情感对齐、偏好纠正,通过这些阶段确保生成的音乐更符合人类的审美标准。
这些技术使得YuE能够生成高质量、连贯且符合歌词内容的音乐,支持多种音乐风格和多语言。
YuE应用场景
音乐创作:音乐制作人可以利用YuE快速生成旋律和伴奏。
影视配乐:在电影、电视剧和短视频制作中,YuE可以为不同场景生成合适的背景音乐。
游戏开发:游戏开发者可以使用YuE生成游戏中的音乐,增强游戏的沉浸感。
教育和研究:音乐教育者和研究人员可以利用YuE进行音乐创作的教学和研究。
项目地址:https://map-yue.github.io/
GitHub:https://github.com/multimodal-art-projection/YuE
数据评估
关于YuE特别声明
本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年2月9日 上午11:11收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。
与YuE相关工具

妙笔是阿里巴巴最新开源的中文文生图模型,它与经典的Stable Diffusion 1.5版本结构相同,兼容现有的lora、controlnet等主流插件及其权重。妙笔的特点是用户可以直接输入中文进行文生图操作,生成的图像效果逼真。例如,输入“枯藤老树昏鸦,小桥流水人家。水墨画。”,妙笔能够理解诗句中的意境并生成相应的图像。

SEED-Story
SEED-Story是一个腾讯开源的基于大型语言模型(MLLM)的多模态长篇故事生成模型,它能够根据用户提供的图片和文本生成连贯的叙事文本和风格一致的图片。无论是小说创作、剧本编写还是视觉故事,SEED-Story都能提供高质量、多模态的内容,助力创意产业的发展。

心辰Lingo语音大模型
心辰Lingo语音大模型是由西湖心辰(杭州)科技有限公司开发的端到端语音大模型。该模型具备原生语音理解、多种语音风格表达、语音模态超级压缩、实时打断和控制、深度情感理解等功能,能够以超拟人化的方式进行互动。这个模型不仅能快速响应复杂指令,还能深度理解用户的情感和意图。

GPT-4o mini
GPT-4o Mini 是 OpenAI 最新推出的小型智能模型,专为高性能和低成本的人工智能解决方案而设计。它支持文本、视觉、音频等多模态输入输出,响应速度极快,适用于实时应用场景。

百川智能
百川智能以帮助大众轻松、普惠地获取世界知识和专业服务为使命,致力于通过语言AI的突破,构建中国最优秀的大模型底座。百川大模型,融合了意图理解、信息检索以及强化学习技术,结合有监督微调与人类意图对齐,在知识问答、文本创作领域表现突出。

PuLID
PuLID是由字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,能够在无需调整模型的情况下轻松生成个性化写真。该技术能够保持高身份(ID)保真度,同时最大限度地减少对原始图像风格和背景的干扰,支持用户通过文本提示轻松编辑图像,生成逼真且个性化的图像结果。

Sora
Sora是一个能以文本描述生成视频的人工智能模型,由美国人工智能研究机构OpenAI开发。它能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。并在单个生成视频中创建多个镜头,准确保留角色和视觉风格。

ThinkSound
ThinkSound是阿里巴巴通义实验室推出的多模态 AI 音频生成与编辑框架,基于思维链推理(CoT)技术,从视频、文本或音频生成高保真、语义匹配的声音。支持对象级交互式编辑、音效修复与多场景拟音,广泛应用于影视后期、游戏音效、无障碍视频及创意内容制作。

Aidge
Aidge基于阿里巴巴国际数字商业集团的大语言模型和多模态大模型,结合对全球商业的深度洞察,为客户提供全面的国际电商AI云服务。Aidge 聚焦商业场景,让客户的全球经营效果更好,成本更低。Aidge 作为国际电商领域专业前沿且经验丰富的AI服务提供方,拥有极强的多语言能力、本地化能力和营销设计能力,帮助企业客户降低语言和文化门槛,解决中小企业难以获得设计、营销、服务和人才等问题。

AnyText
AnyText是阿里云开源的一种基于扩散的多语言视觉文本生成和编辑模型,它利用了深度学习、自然语言处理、计算机视觉等技术,实现了对图像中文本的检测、识别、生成和编辑。

FunAudioLLM
FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型(LLMs)之间的自然语音交互的框架。其核心包括两个创新模型:SenseVoice 和 CosyVoice。SenseVoice 提供高精度的多语言语音识别、情绪识别和音频事件检测,支持超过 50 种语言,并具有极低的延迟。CosyVoice 则专注于自然语音生成,支持多语言、音色和情绪控制,能够进行零样本语音生成、跨语言语音克隆和指令遵循。

Mistral AI
Mistral AI 是一家来自法国的人工智能服务商,专注于大型语言模型和生成式人工智能的构建、培训和应用。Mistral AI 的目标是与 OpenAI 和 谷歌 竞争,为企业开发生成式人工智能基础设施。

WiseDiag-Z1
WiseDiag-Z1是由杭州智诊科技推出的全科医学通用大语言模型,专为医疗领域设计,具有730亿参数和强大的医学知识库。它在知名的医学大模型主流榜单中名列前茅,适用于大多数复杂场景的健康咨询。

VISION XL
VISION XL是一款专注于解决视频逆问题的超高清视频修复工具。利用潜在图像扩散模型,VISION XL 高效处理视频去模糊、超分辨率和修复等任务,显著提升视频清晰度。支持多种降质形式和高分辨率重建,保证时间一致性。适用于视频修复、去模糊和超分辨率增强,让用户轻松实现高清视频的清晰化处理。

GPT-4
GPT-4是OpenAI开发的最新一代大型语言模型。它能够接受文本和图像输入,生成类似人类的文本输出。它还能处理长达2.5万字的内容,是ChatGPT的8倍以上,使其在生成文本、延伸对话或分析文件方面更加强大。GPT-4还具备分析图像的能力,能够识别图片中的元素并生成相关的文本。

Idea-2-3D
Idea-2-3D 是一个3D 内容生成框架,能够从多模态输入(如文本、图像和 3D 模型)中生成高质量的 3D 模型。该框架由三个基于大型多模态模型(LMM)的智能代理组成,分别负责生成提示、选择模型和反馈反映。通过这些代理的协作和批评循环,Idea-2-3D 能够自动生成与输入高度一致的 3D 模型。
暂无评论...