来源:晓飞的算法工程条记 "大众年夜众号

论文: Towards Reliable Advertising Image Generation Using Human Feedback

论文地址:https://arxiv.org/abs/2408.00418论文代码:https://github.com/ZhenbangDu/Reliable_ADIntroduction

  一张引人瞩目的广告图片对电子商务的成功至关主要,由于它可以提高点击率(CTR)。
手工创作须要显著的人力本钱,因此自动广告图片天生的需求正在上升。
然而,先前的方法每每导致产品与背景视觉上的不匹配。
最新的扩散模型供应了一种办理方案,与ControlNet的结合显示出在保持产品细节不变的同时为产品创造和谐背景的潜力。

  只管天生模型在创造吸引人的背景方面有潜力,但存在如图1所示的频繁天生低质量广告图片的情形,包括空间和尺寸不匹配、模糊不清和形状错觉等多种情形。
这些有缺陷的图片可能导致顾客对产品的误解,降落购物体验质量,因此须要大量人力成本来检讨天生的图片,限定了天生模型在广告图片制作中的广泛运用。
因此,核心问题在于可用图片的天生率低,即如何建立一个可靠的广告图片天生流水线,能够生产出高可用率的图片。

RFFT数据与代码已开源京东推出广告图生成新方法  ECCV 2024

  一种自然的办理方案是通过重复天生图像直到得到可用图像(循环天生),由于天生过程中存在随机性。
为了替代在这一重复过程中的人工检讨,论文引入一种新的可靠反馈网络(RFNet)作为人类检讨员,评估天生的广告图片的可用性。
由于仅依赖单生平成的图片,模型无法有效地获取关键信息,例如产品是什么以及产品在背景中的表现。
因此,RFNet集成了多种赞助模态,供应关键信息来判断不同情形下的可用性。
同时,论文构建了一个大规模数据集,称为可靠反馈百万数据集(RF1M),包括超过一百万张精心天生的广告图片,并配有丰富的人类注释,这对付准确演习RFNet以反响人类反馈起到了关键浸染。

  虽然循环天生显著增加了可用图像的数量,但由于天生模型固有的能力不敷,多次考试测验会显著延长天生过程。
利用人类反馈来增强扩散模型的能力供应了一种可行的选择,能够成功提升了天生图像的视觉质量。
然而,天生图像的视觉质量和可用性之间存在权衡关系,例如,具有重复和大略背景的产品虽然可用率高,但都雅度低。
为理解决这个问题,论文提出了一种新的丢失项,同等性条件(CC)正则化 ,以抵消天生背景的统一性和退化,规避传统Kullback-Leibler(KL)正则化的对抗性子。
通过利用这一正则化项,由RFNet评估天生图像偏离可用类型的反馈直接反向传播到微调扩散模型(RFFT),显著提升了天生广告图像的可用率,同时不影响其美学品质。
这一方法为办理可靠广告图像天生的寻衅供应了全面的办理方案。

  论文的紧张贡献包括:

一个广告图像天生办理方案,循环天生以及新型多模态模型RFNet,仿照人类反馈并有效利用各种模态来帮助区分细粒度的问题类型。
一个直不雅观而有效的方法RFFT,利用人类反馈来精化扩散模型,同时采取创新的同等条件正则化来防止崩溃。
一个大规模多模态数据集RF1M,包含超过一百万张天生的广告图像,并带有丰富的注释。
Dataset

  通过风雅的人类反馈构建的可靠反馈一百万(RF1M)数据集,作为检讨和改进广告图像天生的关键资源。
与当前的大规模图像天生数据集Laion-5B、DiffusionDB和Pick-a-Pic比较,RF1M专门为广告领域设计,办理了该领域对广泛数据资源的急迫需求。
以下是对其构成、注释及其对社区潜在影响的深入剖析。

Composition

  该数据集利用京东商城广泛的产品网络而成。
它包含1,058,230个样本,每个样本由多种组成部分组成,旨在全面理解广告图像天生:

天生的广告图像及相应的透明背景产品图像,并由专业设计师精心设计的提示。
由在电子商务数据上演习的密集预测变压器和U2-Net创建的深度和显著性图像,以及产品标题,有助于检讨天生的广告图像的可用性。
人工标注的标签,指示图像是否可用于广告目的。

  这些元素共同为剖析天生的广告图像供应了丰富的根本。
图2展示了一些示例。

Annotation

  参与标注的职员精通广告,并对广告图像的标准有深入的理解。
在数据集中,样本已进一步细分为五个细粒度种别,如图1所示:

Available:适宜用于广告目的的图像。
Space Mismatch:产品与背景之间空间关系不得当的图像,例如产品的一部分漂浮着。
Size Mismatch:产品大小与背景之间的差异,例如,推拿椅看起来比一个柜子小。
Indistinctiveness:由于背景繁芜或颜色相似,产品未能突出的图像。
Shape Hallucination:背景缺点地延伸了产品形状,增加了像底座或腿这样的元素。
Potential Impact

  RF1M凭借其多模态设计和全面功能,是RFNet演习和RFFT的基石,并将进一步显著影响电子商务广告领域及更广泛的领域,具有以下三个亮点:

Large scale:凭借其广泛的产品种别和图像类型,RF1M超越了以往的广告数据集BG60k、PPG30k和人类反馈数据集ImageRewardDB、RichHF-18K,同时与Pick-a-Pic数据集规模相称,为RFNet在多样化的广告图像天生任务中准确反响人类反馈供应了坚实的根本。
Scalability:RF1M的多模态性子为RFNet供应了充足的信息,使其能够精确地进行判断。
除了天生可靠的广告图像外,它还支持高等图像理解和图像抠图等任务。
这种灵巧性确保了数据集能够知足不断变革的需求,并可以在广告以及其他领域广泛运用。
Visual appeal:论文精心设计了针对产品特色的提示和天生模型,因此天生的图像具有令人满意的美学效果,能够吸引顾客的把稳力。
我们在京东进行了为期一周的在线A/B测试,从超过6000万次曝光中得到了2.2%的点击率增长,凸显了这些图像的高质量,准确捕捉了用户的偏好。
MethodologyPreliminaries

  论文天生广告图像的方法如图3所示,从描述所需背景的文本提示和带有透明背景的产品图像 ( ) 开始。
文本提示被输入到Stable Diffusion中,而 ( ) 在输入ControlNet之前经由cannny边缘检测预处理。
采取DDIM作为去噪调度,第 ( t ) 步的潜在表示 ( x ) 打算如下:

  个中, 表示预测添加噪声的模型, 是掌握前向添加噪声过程的系数凑集。
为了保持产品的完全性并确保背景的连贯性,采取修补技能,将潜在表示 经由以下处理:

  个中, 是 的潜在表示, 是产品的掩模, 表示逐元素乘法。
在得到 后,该潜在表示被转换为天生的图像 。

Recurrent Generation with RFNet

  由于固有的随机性,重复天生可以显著扩展可用图像的数量。
为了自动化检讨过程并肃清人类参与,引入了一个多模型RFNet用于精确确定天生的图像是否可用,如图4所示。
除了 和 ,RFNet还结合了来自赞助模态的信息:

由深度估计模型天生的 的深度图像 ,突出显示了产品相对付背景的位置;由显著性检测模型天生的 的显著性图像 ,勾画出产品的轮廓;产品标题 ,供应有关产品属性的见地。

  , , 和 被送入图像编码器以获取各自的图像嵌入 。
同时, 被输入到BERT中,以获取文本嵌入 ,有助于识别产品的属性。

  由于产品标题常日包含大量信息,例如品牌,从标题中可以提炼与视觉干系的属性。
因此,首先采取了 个特色过滤模块(FFM),每个模块包括一个交叉把稳力层和多少卷积层。
FFM的输出被表述为:

  个中, 充当交叉把稳力层中的 ,而 同时作为 和 。
表示具有 核的卷积层, 表示逐元素乘法。
该过程确保从标题中提取的关键信息有效地与图像嵌入集成,增强了模型对产品的理解能力。

  通过领悟嵌入 ,不同的特色进一步通过 个自把稳力层整合,

  个中, 表示拼接操作。
这些堆叠层捕获了嵌入中的关键特色。
末了,一个全连接分类器确定了天生图像每个案例的概率。

  在大规模RF1M数据集上演习的RFNet,通过考虑全面的视觉和文本特色,并供应细致的反馈,准确评估天生的广告图片的可用性。
这种能力与递归天生策略相结合,显著增加了可用于广告的天生图像数量,实现了自动化天生。

RFFT with Consistent Condition regularization

  只管递归天生能够总体上天生更多可用的图像,但天生模型本身的能力较差导致生产过程冗长且低效,给运用带来了巨大寻衅。
论文的端到端天生-检测流水线许可来自RFNet的反馈梯度直接对扩散模型进行微调,增强其能力。
详细而言,论文提出的RFFT在40-step去噪过程中选择末了10-step中的随机step 来天生 。
天生的 经由后处理成 ,然后通过RFNet进行检讨以确定其可用性,其反馈打算如下:

  个中, 是表示所需的“可用”类别的one-hot向量,向量 包含每个天生图像案例的概率, 是样本总数。
然后,梯度 被反向传播,以勾引模型天生更高概率可用的图像。

  然而,演习模型可靠性的目标与模型天生的图像美学相抵牾,例如,重复且大略的背景可以完备避开前面提到的不良情形。
因此,如图5.a所示,随着演习的进行,模型实现了极高的可用率,但产生了同质化且美学上崩溃的输出。
因此,须要一种演习方法来提高图像可用性的同时保持其美学稳定性。
一种常见的办理方案涉及Kullback-Leibler(KL)正则化,这是一个丢失项,确保修正后的模型不会显著偏离期望的分布,从而保持多样性,防止收敛到次优且重复的结果。
该丢失项可以表述为:

  个中, 和 是图像和文本的掌握条件, 和 分别表示当前模型和参考模型的分布。
然而,反馈梯度努力将图像天生引向更高的可用率,而KL正则化则致力于保持天生的图像不变。
这种对立反响了对抗演习的原则,并且对付实现双赢办理方案提出了寻衅。

  为此,论文打算不再专注于保持图像不变,而是致力于保持视觉质量。
对付文本到图像的天生,视觉输出与输入文本条件 密切干系,以无需分类器的办法,通过从模型的隐式分类器中提取文本辅导信息:

  这表明文本条件影响图像天生的方向。
为了确保图像可用性的提高不会危害核心条件,论文引入了同等条件(CC)正则化项 ,如下所示:

  图5.b展示了 相对付 的上风。
虽然 通过限定来自 的更新,可能导致刚性,但 供应了一种双赢的方法。
它保持条件的方向,使模型能够被精调以天生更多可用的图像。
因此,用于在RFFT中微调扩散模型的终极反馈是:

Experiments

如果本文对你有帮助,麻烦点个赞或在看呗~更多内容请关注 微信"大众号【晓飞的算法工程条记】

work-life balance.