AI生成视频工具——阿里EMO惊艳登场：让静态肖像活起来！

1.6K 00

2月的Sora 可谓是当之无愧的 AI 明星，公布的两波 AI 视频吸睛无数。没想到在2月末尾，还有一款惊喜的AI工具等着我们—EMO（Emote Portrait Alive），快来一起了解一下！ AI生成视频工具——阿里EMO惊艳登场：让静态肖像活起来！

先来看看EMO (Emote Portrait Alive)所有效果演示demo：

文章目录

EMO是什么？

EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说，EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件（例如说话、唱歌的声音），EMO就能够根据音频内容生成一个生动的视频，视频中的人物会展现出丰富的面部表情和多变的头部动作，仿佛照片中的人物正在唱你所制定的语言或歌曲。

EMO系统不仅精准地捕获了人类微妙的表情细节和面部特征的个性化风格，因此能够生成高度真实感和强烈表现力的动态图像。而且，它还能根据输入音频的长度生成任意长度的视频，保持角色身份的一致性。无论是处理不同语言的歌曲、使古代画像动起来，还是生成具有逼真动作和表情的三维或AI生成内容，EMO都能够轻松应对，注入生动的动态效果。此外，它还能够驾驭快速节奏，确保快速歌词与角色动画的同步。

EMO

官方项目主页：https://humanaigc.github.io/emote-portrait-alive/

@arXiv研究论文：https://arxivorg/abs/2402.17485

GitHub: https://github.com/HumanAIGC/EMO（模型和源码待开源）

工作原理

EMO的工作原理基于扩散模型（Diffusion Models），这是一种能够生成高质量图像的模型。

在EMO中，首先使用ReferenceNet从参考图像中提取特征，然后在扩散过程中，通过预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声结合，引导面部图像的生成。Backbone Network负责去噪操作，其中包含两种注意力机制：Reference-Attention和Audio-Attention，分别用于保持角色身份和调节角色动作。此外，Temporal Modules用于操纵时间维度，调整运动速度。