AI生成视频工具——阿里EMO惊艳登场:让静态肖像活起来!

2月的Sora 可谓是当之无愧的 AI 明星,公布的两波 AI 视频吸睛无数。没想到在2月末尾,还有一款惊喜的AI工具等着我们—EMO(Emote Portrait Alive),快来一起了解一下!AI生成视频工具——阿里EMO惊艳登场:让静态肖像活起来!先来看看EMO (Emote Portrait Alive)所有效果演示demo:

EMO是什么?

EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件(例如说话、唱歌的声音),EMO就能够根据音频内容生成一个生动的视频,视频中的人物会展现出丰富的面部表情和多变的头部动作,仿佛照片中的人物正在唱你所制定的语言或歌曲。

EMO系统不仅精准地捕获了人类微妙的表情细节和面部特征的个性化风格,因此能够生成高度真实感和强烈表现力的动态图像。而且,它还能根据输入音频的长度生成任意长度的视频,保持角色身份的一致性。无论是处理不同语言的歌曲、使古代画像动起来,还是生成具有逼真动作和表情的三维或AI生成内容,EMO都能够轻松应对,注入生动的动态效果。此外,它还能够驾驭快速节奏,确保快速歌词与角色动画的同步。

官方项目主页:https://humanaigc.github.io/emote-portrait-alive/

@arXiv研究论文:https://arxivorg/abs/2402.17485

GitHub: https://github.com/HumanAIGC/EMO模型和源码待开源

工作原理

EMO的工作原理基于扩散模型(Diffusion Models),这是一种能够生成高质量图像的模型。

AI生成视频工具——阿里EMO惊艳登场:让静态肖像活起来!
在EMO中,首先使用ReferenceNet从参考图像中提取特征,然后在扩散过程中,通过预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声结合,引导面部图像的生成。Backbone Network负责去噪操作,其中包含两种注意力机制:Reference-Attention和Audio-Attention,分别用于保持角色身份和调节角色动作。此外,Temporal Modules用于操纵时间维度,调整运动速度。

工具效果

让奥黛丽·赫本演唱一曲英国歌手艾德·希兰的《Perfect》,随着歌曲旋律,她会做出挑眉、皱眉等细微的表情变化。

 

想听Rap,小李子为你演绎埃米纳姆的《GODZILLA》。虽然中间偶尔会出现“翻白眼”等瑕疵,但总体拟合程度还是很高的。

 

在AI视频这个赛道上,阿里另辟蹊径,从新玩法、新形式上开发了不少有趣的项目,这也给国内其他玩家提供了一条新思路:不一定非要死磕AI生成的视频时长或分辨率等参数,从应用的角度出发也能让人眼前一亮!

论文:
https://arxiv.org/pdf/2402.17485.pdf
GitHub:
https://github.com/HumanAIGC/EMO

© 版权声明

相关文章