论文题目

AnyDoor: Zero-shot Object-level Image Customization

1、简介

这项事情提出了AnyDoor,一个基于扩散的图像天生器,具有将目标物体传送到用户指定位置的新场景的能力,具有所需的形状。
模型只演习一次,不须要为每个工具调度参数,并且在推理阶段很随意马虎地推广到不同的工具-场景组合。
如此具有寻衅性的Zero-shot设置须要对特定工具进行充分的表征,本文将常用的身份特色补充为细节特色,精心设计以保持外不雅观细节,同时许可多用场的局部变革(例如,照明,方向,姿势等),支持物体与不同环境的良好领悟。
进一步建议从视频数据集中借鉴知识,在视频数据集中,可以不雅观察到单个工具的各种形式(即沿着韶光轴),从而提高模型的可泛化性和鲁棒性。
大量的实验表明,本文的方法优于现有的替代方法,并且在现实天下的运用中具有巨大的潜力,例如虚拟试穿,形状编辑和工具交流。

阿里超火的图像编辑神器AnyDoorZeroshot图像定制CVPR2024

AnyDoor展示了Zero-shot定制的非凡能力。
如图1所示,AnyDoor显示了将新观点与形状掌握(上图)相结合的良好性能。
由于AnyDoor对场景图像的特定局部区域具有高度的可掌握性,因此易于扩展到多主体合成,AnyDoor的高保真度和质量解锁了更多奇妙运用程序的可能性,如工具移动和交流。
AnyDoor可以作为各种图像天生和编辑任务的根本办理方案,并作为引发更多高等运用程序的基本能力。

AnyDoor的紧张特点

1)可以直接将物体插入到新的背景中,Zero-shot实现,不须要演习

2)平衡了ID保持和天生能力,有很好的同等性和多样性

3)支持广泛的运用领域

2、背景

1)可控图像天生,SD利用prompt掌握天生,controlnet利用各种草图或关键点掌握天生,这些方法还是不足风雅

2)更进一步的提出了定制化的方法,Deambooth为代表的方法,通过几张图片可以天生不同场景下的动作

3)不管是可控天生还是定制化天生,紧张的两个难点是同等性和多样性,该当说同等性和多样性是天生图像和视频都会碰着的问题,

3、方法

1)AnyDoor的整体框架如图2所示,给定目标物体、场景和位置,AnyDoor天生具有高保真度和多样性的物体-场景组合。
其核心思想是用与身份和细节干系的特色来表示工具,并通过将这些特色注入预演习的扩散模型,在给定的场景中重新组合它们。
为了学习外不雅观变革,利用包括视频和图像在内的大规模数据进行演习。

2)方案可分为两个分支,上面分支可以理解为细节分支,下面的分支可以理解为一个全局ID分支,首先将前景分割出来,然后利用Self-supEncoder提出global token,作者说Self-supEncoder比较于其他事情的CLIP,作者创造利用Self-supEncoder提取到的特色更有判别性,效果更好,同时对提取的前景图像利用高通滤波,提取高频信息,高频信息可以拿到更多前景的细节特色,提取出的高频特色直接贴合在上面分支的位置信息上,给细节分支更多的空间指引,然后细节分支和全局分支的特色都拼接到U-Net扩散模型中,如果前景图像不该用高通滤波直接传给细节分支,作者创造天生效果类似copy paste,效果不理想

3)演习数据,方案是一部分,终极要的是数据,为了天生一个物体在不同状态和场景下的图像,作者利用了视频数据,对视频进行跟踪和分割,天生了一系列的图像对,同时为了补充数据,还利用了3D数据,同时还混入了copy paste数据,这样就能天生各种视角各种场景的数据了

4、实验

1)与基于参考的图像天生方法的定性比较

2)全局ID分支,利用Self-supEncoder比较于其他事情的CLIP,作者创造利用Self-supEncoder提取到的特色更有判别性,效果更好

3)前景图像不该用高通滤波直接传给细节分支,作者创造天生效果类似copy paste,效果不理想

4)一些有趣的运用