ECCV2024: Towards Reliable Advertising Image Generation Using Human Feedback
链接:https://arxiv.org/abs/2408.00418
摘要:在电商领域,吸引顾客注意力的广告图片至关重要。尽管生成模型可以自动生成图像,但它们往往会产生不符合广告标准的图片,可能误导顾客,并需要大量人工成本进行检查。本文探讨了如何提高可用生成图像的比例。我们首先引入了一种多模态可信赖反馈网络(RFNet),用于自动检查生成的图像。将 RFNet 整合到一个循环过程——循环生成中,可以提高可用广告图像的数量。为了进一步提升生产效率,我们通过一种创新的一致性条件正则化方法,利用 RFNet 的反馈来微调扩散模型(RFFT)。这显著提高了生成图像的可用率,减少了循环生成中的尝试次数,并提供了一种高效的生产过程,同时不牺牲视觉效果。我们还构建了一个包含超过一百万张由人工标注的生成广告图像的可信赖反馈一百万(RF1M)数据集,这有助于训练 RFNet 准确评估生成图像的可用性,并真实反映人工反馈。总的来说,我们的方法为广告图像生成提供了一个可信赖的解决方案。
一、背景及现状
吸引人的广告图片对于电子商务的成功至关重要。由于手动设计图片需要大量的人工成本,因此对自动广告图像生成的需求正在上升。最近,通过结合先进的扩散模型(Stable Diffusion)和 ControlNet,可以为产品生成和谐的背景,同时保持商品细节不变。
尽管生成模型有潜力创造出吸引人的背景,但我们观察到其经常会生成质量欠佳的广告图片,如下图所示,这些图片存在空间和尺寸不匹配、不显著以及形状幻觉等问题。