PixArt-Σ相比其前作PixArt-α,在图像质量和文本提示对齐方面有了显著提升。
今天向大家介绍PixArt-Σ,一种Diffusion Transformer(DiT)模型,能够直接生成4K分辨率的高质量图像。该模型在生成高保真图像的同时,与文本提示紧密对齐,超越了其前身PixArt-α模型。
PixArt-Σ可以直接生成4K的图片,目前开源的模型暂时还没有模型能做到,这个能力对于从事电影和游戏等行业的设计师来说是个巨大的福音了。关键是训练,推理,模型均会开源(承诺2024/4/1前开源完成)。
相关链接
代码链接:https://github.com/PixArt-alpha/PixArt-sigma 论文链接:https://arxiv.org/abs/2403.04692 Huggingface Demo: https://huggingface.co/spaces/PixArt-alpha/PixArt-alpha
论文介绍
PixArt-Σ是一个能够直接生成4K分辨率图像的扩散变压器模型(DiT)。PixArt-Σ代表了其前身PixArt-α的重大进步,提供了显着更高保真度的图像,并改进了与文本提示的对齐。
PixArt-Σ的一个关键特点是它的训练效率。利用PixArt-α的基础预训练,它通过合并更高质量的数据,从“较弱”的基线发展到“更强”的模型,称之为“弱到强的训练”。
PixArt-Σ的进步有两个方面:
高质量的训练数据:PixArt-Σ结合了高质量的图像数据,配以更精确和详细的图像说明。 高效的令牌压缩:在DiT框架内提出了一种新颖的注意力模块,该模块可以同时压缩键和值,显著提高了效率,促进了超高分辨率图像的生成。
由于这些改进,PixArt-Σ以比现有的文本到图像扩散模型(如SDXL(2.6B参数)和SD Cascade (5.1B参数)更小的模型尺寸(0.6B参数)实现了卓越的图像质量和用户提示依从能力。
此外,PixArt-Σ生成4K图像的能力支持高分辨率海报和壁纸的创建,有效地支持了电影和游戏等行业高质量视觉内容的生产。
实验效果
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...