华为最新文生图模型PixArt-Σ：可直接生成4K分辨率图像，并显著提高与文本提示词的对齐

1.7K 00

2024年3月11日由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队共同开发的PixArt-Σ是一款能够直接生成4K分辨率图像的扩散变换模（DiT）。

PixArt-Σ相比其前作PixArt-α，在图像质量和文本提示对齐方面有了显著提升。

今天向大家介绍PixArt-Σ，一种Diffusion Transformer（DiT）模型，能够直接生成4K分辨率的高质量图像。该模型在生成高保真图像的同时，与文本提示紧密对齐，超越了其前身PixArt-α模型。

PixArt-Σ可以直接生成4K的图片，目前开源的模型暂时还没有模型能做到，这个能力对于从事电影和游戏等行业的设计师来说是个巨大的福音了。关键是训练，推理，模型均会开源（承诺2024/4/1前开源完成）。

华为最新文生图模型PixArt-Σ：可直接生成4K分辨率图像，并显著提高与文本提示词的对齐

论文介绍

PixArt-Σ是一个能够直接生成4K分辨率图像的扩散变压器模型(DiT)。PixArt-Σ代表了其前身PixArt-α的重大进步，提供了显着更高保真度的图像，并改进了与文本提示的对齐。

PixArt-Σ的一个关键特点是它的训练效率。利用PixArt-α的基础预训练，它通过合并更高质量的数据，从“较弱”的基线发展到“更强”的模型，称之为“弱到强的训练”。

PixArt-Σ的进步有两个方面:

由于这些改进，PixArt-Σ以比现有的文本到图像扩散模型(如SDXL(2.6B参数)和SD Cascade (5.1B参数)更小的模型尺寸(0.6B参数)实现了卓越的图像质量和用户提示依从能力。

此外，PixArt-Σ生成4K图像的能力支持高分辨率海报和壁纸的创建，有效地支持了电影和游戏等行业高质量视觉内容的生产。

华为最新文生图模型PixArt-Σ：可直接生成4K分辨率图像，并显著提高与文本提示词的对齐

文章版权归作者所有，未经允许请勿转载。

2年前

02.7K0

1年前

03.6K0

2年前

05.9K0

2年前

010.3K0

您必须登录才能参与评论！

暂无评论...