AniPortrait

1年前发布 638 00

工具介绍:AniPortrait是一个由腾讯推出的音频驱动的肖像动画合成框架,能够根据音频和静态人脸图片生成逼真的动态视频。它利用音频文件驱动,生成逼真的肖像动画。用户可以通过提供一个音频文件和一张参考的肖像图片,让AniPortrait根据音频中的语音和声音的节奏来动态地生成说话或表情变化的肖像动画。

收录时间:
2024-03-30

AniPortrait功能详解与使用指南

AniPortrait是一个由腾讯推出的音频驱动的肖像动画合成框架,能够根据音频和静态人脸图片生成逼真的动态视频。它利用音频文件驱动,生成逼真的肖像动画。用户可以通过提供一个音频文件和一张参考的肖像图片,让AniPortrait根据音频中的语音和声音的节奏来动态地生成说话或表情变化的肖像动画。此外,它还支持面部再现功能,通过分析给定视频中的面部表情和动作,可以在另一张参考肖像上再现相同的表情和动作。

AniPortrait包含两个主要模块:Audio2Lmk和Lmk2Video。Audio2Lmk模块从音频输入中提取一系列landmarks,捕捉复杂的面部表情和嘴唇动作;而Lmk2Video模块则利用这个具有里程碑意义的序列来生成具有时间稳定性的高质量人像视频。

项目地址:

文章地址:https://arxiv.org/abs/2403.17694

项目代码:https://github.com/Zejun-Yang/AniPortrait

AniPortrait

AniPortrait的功能特点

  1. 音频驱动的动画生成:AniPortrait能够根据输入的音频文件,自动提取其中的语音和声音节奏,进而驱动静态的人脸图片生成动态的肖像动画。这种音频驱动的方式为用户提供了便捷的操作体验,无需复杂的动画编辑技能即可生成逼真的肖像动画。
  2. 逼真的面部表情和动作:通过先进的算法和技术,AniPortrait能够准确地捕捉音频中的语音和声音变化,并映射到人脸图片上,生成与音频内容相匹配的面部表情和动作。这使得生成的动画看起来更加自然、生动,增强了观看者的沉浸感和代入感。
  3. 面部再现功能:除了根据音频生成动画外,AniPortrait还支持面部再现功能。它通过分析给定视频中的面部表情和动作,可以在另一张参考肖像上精确地再现相同的表情和动作。这种功能为用户提供了更多的创意空间,可以将不同人物的面部表情和动作应用到其他肖像上,创造出丰富多样的动画效果。
  4. 高质量的视频输出:AniPortrait注重生成的动画视频质量,通过优化算法和参数设置,确保输出的视频具有清晰、流畅的画面和稳定的帧率。这使得生成的动画视频不仅看起来逼真,而且在播放过程中也不会出现卡顿或抖动等问题。
  5. 易用性和灵活性:AniPortrait具有直观的用户界面和简洁的操作流程,使用户能够轻松上手并快速完成肖像动画的生成。同时,它还提供了丰富的参数设置和调整选项,允许用户根据具体需求进行个性化定制,以满足不同场景和风格的需求。

AniPortrait技术原理

AniPortrait包含两个模块,即Audio2Lmk和Lmk2Video。Audio2Lmk旨在从音频输入中提取一系列landmarks,捕捉复杂的面部表情和嘴唇动作。Lmk2Video利用这个具有里程碑意义的序列来生成具有时间稳定性的高质量人像视频。整体框架如下:

AniPortrait

AniPortrait整体框架

(第一阶段从音频中提取三维面部网格和头部姿态,然后将这两个元素投影到二维关键点上,第二阶段利用扩散模型将2D关键点转换为人像视频)

2.1 Audio2Lmk

AniPortrait

同时使用预训练的wav2vec来提取音频特征。wav2vec该模型具有高度的泛化性,能够准确地识别语音和语调,这对于生成逼真的面部动画起着关键作用。通过利用所获得的鲁棒语音特征,可以有效地采用由两个fc层组成的简单架构将这些特征转换为3D面部网格。这种简单的设计不仅保证了准确性,而且提高了推理过程的效率。

在将音频转换为姿态的任务中,使用相同的wav2vec网络作为主干,但是不与audio-to-mesh共享权重。这是因为姿势与音频中的节奏和音调联系更紧密,这与音频到网格任务的重点不同。为了考虑先前状态的影响,我们使用transformer解码器来解码姿势序列。在此过程中,音频特征通过交叉注意机制集成到解码器中,上述两个模块使用简单的L1损失来训练

在获得网格和姿态序列后,使用透视投影将它们转换为二维面部landmarks序列。这些landmarks随后被用作下一阶段的输入信号。

 

2.2 Lmk2Video

AniPortrait

与AnimateAnyone不同的是,Lmk2Video增强了poseguide设计的复杂性。原始版本仅包含几个卷积层,之后landmark特征与骨干输入层的潜在特征合并。实验发现,这种基本的设计在捕捉嘴唇的复杂运动方面是不够的。因此,最终采用ControlNet的多尺度策略,将相应尺度的landmark特征整合到主干的不同块中。

此外引入了一个额外的改进:包含参考图像的landmark作为额外的输入。PoseGuider的交叉注意模块促进了参考landmark和每帧目标landmark之间的交互。这个过程为网络提供了额外的线索来理解面部landmark和外观之间的相关性,从而帮助生成具有更精确运动的肖像动画。

AniPortrait效果展示

用户提供一个音频文件和一张参考的肖像图片实现动画生成。

用户提供一段视频,实现在新的肖像上复现视频中人物的面部表情和动作。

AniPortrait官网无法访问的原因及解决方案

如果你经常无法打开 该网站,可能是以下几个原因造成的。别担心,这里提供了一些有效的解决方案,帮助你顺利访问网站。

一、可能被软件屏蔽:一些应用,如 微信、QQ 等内置浏览器,可能会屏蔽某些网站,使其无法正常打开。

✅ 解决方案:尝试使用 手机自带浏览器(如 Safari、Chrome)打开网址,而不是微信或 QQ 内置的浏览器。

二、浏览器拦截:某些浏览器可能会误判网站为不安全或违规,导致无法访问。实际上,这并不一定意味着网站有问题,而是浏览器厂商的屏蔽策略造成的。

✅ 解决方案:换用 其他浏览器 试试,比如:

  • iPhone 用户:Safari
  • Windows 用户:Microsoft Edge
  • 推荐独立浏览器:Alook 浏览器、X 浏览器、VIA 浏览器等

三、网络连接问题如果你的网络连接不稳定,或者当前运营商未对该网站进行优化,可能会导致访问困难。

✅ 解决方案:

  • 切换网络环境(Wi-Fi、移动数据等)
  • 使用 网络加速器 提高访问稳定性
  • 科学上网(适用于某些网站,如 Google)

以上方法基本上能解决99.99%网站打不开的问题了。如果仍然无法打开,你可以 留言咨询 或 通过微信联系我们 以获取进一步帮助。

数据评估

AniPortrait浏览人数已经达到638,如你需要查询该站的相关权重信息,可以通过第三方来进行查询,比如爱站、5118数据、chinaz等;更多网站价值评估因素如:该网站的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找该网站的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于AniPortrait特别声明

本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2024年3月30日 下午12:27收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。

相关导航

Comic Translate

Comic Translate

Comic Translate 是一款开源基于 Python 开发的高效漫画翻译工具,结合了 OpenCV 和 PIL 图像处理库,能够精准识别并提取漫画中的文字。通过集成 Google Translate API 或自定义翻译服务,Comic Translate 实现了自动化翻译流程。主要功能包括 OCR(光学字符识别)、自动翻译、图像去字和修复、以及自动嵌字。无论是漫画爱好者、翻译团队,还是教育研究人员,Comic Translate 都能显著提升工作效率,简化翻译过程。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...