V-Express

2年前发布 1.7K 00

工具介绍：V-Express是由南京大学和腾讯AI实验室共同开发的一项技术，旨在通过参考图像、音频和一系列V-Kps图像来生成说话的头像视频。这项技术可以根据不同的信号，如声音、姿势、图像参考等来控制视频内容，确保即使是弱信号也能有效地影响最终生成的视频，使视频生成更加逼真和多样化。

收录时间：

2024-06-16

访问官网手机查看

访问官网

V-Express简介

V-Express是由南京大学和腾讯AI实验室共同开发的一项技术，旨在通过参考图像、音频和一系列V-Kps图像来生成说话的头像视频。这项技术可以根据不同的信号，如声音、姿势、图像参考等来控制视频内容，确保即使是弱信号也能有效地影响最终生成的视频，使视频生成更加逼真和多样化。

V-Express通过一系列渐进式的丢弃操作来平衡不同的控制信号，逐步实现由弱条件有效控制的生成能力，从而同时考虑姿势、输入图像和音频。

底层技术

在肖像视频生成领域，使用单张图片生成肖像视频的做法越来越普遍。常见的方法包括利用生成模型增强适配器以实现可控生成。

然而，控制信号的强度可能不同，包括文本、音频、图像参考、姿态、深度图等。在这些中，较弱的条件经常因为较强条件的干扰而难以发挥效果，这在平衡这些条件中构成了挑战。

在关于肖像视频生成的工作中，发现音频信号特别弱，常常被姿态和原始图像这些较强的信号所掩盖。然而，直接使用弱信号进行训练往往导致收敛困难。为了解决这个问题，提出了一种名为V-Express的简单方法，通过一系列逐步的弱化操作来平衡不同的控制信号。该方法逐渐使弱条件能够有效控制，从而实现同时考虑姿态、输入图像和音频的生成能力。

使用方法

重要提醒~

在讲话面孔生成任务中，当目标视频中的人物与参考人物不同时，面部的重定向将是非常重要的部分。选择与参考面孔姿势更相似的目标视频将能够获得更好的结果。

运行演示（第一步，可选）

如果你有目标讲话视频，你可以按照下面的脚本从视频中提取音频和面部V-kps序列。你也可以跳过这一步，直接运行第二步中的脚本，尝试提供的示例。

python scripts/extract_kps_sequence_and_audio.py \ –video_path “./test_samples/short_case/AOC/gt.mp4” \ –kps_sequence_save_path “./test_samples/short_case/AOC/kps.pth” \ –audio_save_path “./test_samples/short_case/AOC/aud.mp3”

建议裁剪一个清晰的正方形面部图像，如下面的示例所示，并确保分辨率不低于512×512。下图中的绿色到红色框是推荐的裁剪范围。

运行演示（第二步，核心）

场景1（A的照片和A的讲话视频）

如果你有A的一张照片和另一个场景中A的讲话视频，那么你应该运行以下脚本。模型能够生成与给定视频一致的讲话视频。你可以在项目页面上看到更多示例。

python inference.py \
–reference_image_path “./test_samples/short_case/AOC/ref.jpg” \
–audio_path “./test_samples/short_case/AOC/aud.mp3” \
–kps_path “./test_samples/short_case/AOC/kps.pth” \
–output_path “./output/short_case/talk_AOC_no_retarget.mp4” \
–retarget_strategy “no_retarget” \
–num_inference_steps 25

场景2（A的照片和任意讲话音频）

如果你只有一张照片和任意的讲话音频。使用以下脚本，模型可以为固定的面孔生成生动的嘴部动作。

python inference.py \
–reference_image_path “./test_samples/short_case/tys/ref.jpg” \
–audio_path “./test_samples/short_case/tys/aud.mp3” \
–output_path “./output/short_case/talk_tys_fix_face.mp4” \
–retarget_strategy “fix_face” \
–num_inference_steps 25

更多参数

对于不同类型的输入条件，如参考图像和目标音频，提供了参数来调整这些条件信息在模型预测中的作用。将这两个参数称为 reference_attention_weight 和 audio_attention_weight。

可以使用以下脚本应用不同的参数以达到不同的效果。通过实验，建议 reference_attention_weight 取值在 0.9-1.0 之间，而 audio_attention_weight 取值在 1.0-3.0 之间。

模型下载

你可以从https://huggingface.co/tk93/V-Express下载模型。已经在模型卡中包含了所有所需的模型。你也可以从原始仓库单独下载模型。

·stabilityai/sd-vae-ft-mse
·runwayml/stable-diffusion-v1-5。这里只需要unet的模型配置文件。
·facebook/wav2vec2-base-960h
·insightface/buffalo_l

V-Express官网无法访问的常见原因及解决方案

如果你经常打不开V-Express网站，最可能的原因有以下一些。别怕，还有办法帮助你顺利访问网站。

一、可能被软件屏蔽：部分应用，如微信、QQ 等自带的浏览应用可能就屏蔽了部分网址不让打开。

解决方案：采用自己手机的浏览器打开该网址，如Safari、Chrome等，而不是用微信或QQ的浏览器。

二、浏览器拦截：有时浏览器会错误地将网站判断成不安全、为不良网站而封锁。实际上，这并不一定意味着网站有问题，是因为浏览器厂商在其封锁列表之中的缘故。

解决方案：通过其它浏览器可能打开，例如：iphone用户Safari，windows用户（微软），Edge。推荐独立浏览器：Alook浏览器、X 浏览器、VIA 浏览器等

三、网络连接问题：如果你的网络速度比较慢，或所在运营商没有对该网站进行最佳化，也会出现无法打开的情况。

解决方案：切换到其他网络环境（wifi、移动数据等）用网络加速器让访问更顺畅科学上网（如访问 google 网站）

以上方法应该能解决99.99%网站打不开了。如果这些也无济于事，你可以留言咨询或微信联系我们进行寻求帮助！

关于V-Express特别声明

本站新媒派提供的V-Express内容都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由新媒派实际控制，在2024年6月16日下午5:38收录时，该网页上的内容，都属于合规合法，后期网页的内容如有出现违规，可以直接联系网站管理员进行删除，新媒派不承担任何责任。

新媒派致力于优质、实用的运营工具和AI工具资源分享！本文地址https://pidoutv.com/sites/20872.html转载请注明

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

V-Express

V-Express简介

底层技术

使用方法

模型下载

V-Express官网无法访问的常见原因及解决方案

相关导航

火山方舟大模型

Mini-Gemini

YouDub-Webui

EzVideos

RMBG-2.0

RecCloud

Chromox

破晓漫剧

暂无评论