字节跳动最近公布了DreamTuner,这是一种从单个图像生成主体驱动的新通用方法,可以创建令人震惊的一致主体身份。你只需要提供一张图片,DreamTuner就能帮你生成与这张图片在主题和风格上一致的新图像。这个工具特别适用于需要根据特定主题或条件创建个性化图像的场景。
摘要
方法
- 提出主题编码器作为一种图像编码器,为主题驱动的生成提供了一个粗略的参考。采用冷冻CLIP图像编码器提取参考图像的压缩特征。采用显著目标检测(SOD)模型或分割模型去除输入图像的背景,突出主题。
- 引入一些残差块(ResBlock)进行域移位。CLIP提取的多层特征在通道维度上进行拼接,然后通过残差块调整到与生成的特征相同的维度。使用额外的主题编码器-注意(S-E-A)层将主题编码器的编码参考特征注入到文本-图像模型中。主题-编码器-注意层在视觉-文本交叉注意层之前添加,因为交叉注意层是控制生成图像的一般外观的模块。
- 根据与交叉注意相同的设置和输出层的初始值为零来构建主题编码器注意。引入一个附加系数β来调节主体编码器的影响。此外,主题编码器将为文本到图像的生成提供参考图像的内容和布局。然而,在大多数情况下,主题驱动生成不需要布局。
- 进一步引入ControlNet来帮助解耦内容和布局。具体来说,我们训练主题编码器连同冻结深度控制网。由于ControlNet提供了参考图像的布局,因此主题编码器可以更加专注于主题内容。
实验结果
总结
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...