EMO是什么?
EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件(例如说话、唱歌的声音),EMO就能够根据音频内容生成一个生动的视频,视频中的人物会展现出丰富的面部表情和多变的头部动作,仿佛照片中的人物正在唱你所制定的语言或歌曲。
EMO系统不仅精准地捕获了人类微妙的表情细节和面部特征的个性化风格,因此能够生成高度真实感和强烈表现力的动态图像。而且,它还能根据输入音频的长度生成任意长度的视频,保持角色身份的一致性。无论是处理不同语言的歌曲、使古代画像动起来,还是生成具有逼真动作和表情的三维或AI生成内容,EMO都能够轻松应对,注入生动的动态效果。此外,它还能够驾驭快速节奏,确保快速歌词与角色动画的同步。
官方项目主页:https://humanaigc.github.io/emote-portrait-alive/
@arXiv研究论文:https://arxivorg/abs/2402.17485
GitHub: https://github.com/HumanAIGC/EMO(模型和源码待开源)
工作原理
EMO的工作原理基于扩散模型(Diffusion Models),这是一种能够生成高质量图像的模型。
工具效果
想听Rap,小李子为你演绎埃米纳姆的《GODZILLA》。虽然中间偶尔会出现“翻白眼”等瑕疵,但总体拟合程度还是很高的。
在AI视频这个赛道上,阿里另辟蹊径,从新玩法、新形式上开发了不少有趣的项目,这也给国内其他玩家提供了一条新思路:不一定非要死磕AI生成的视频时长或分辨率等参数,从应用的角度出发也能让人眼前一亮!
论文:
https://arxiv.org/pdf/2402.17485.pdf
GitHub:
https://github.com/HumanAIGC/EMO