Making Images Real Again: A ComprehensiveSurvey on Deep Image Composition 图像合成综述阅读

这篇综述研究的主题是图像合成 / 对象插入（object insertion）——把一个图像中的前景物体合理地放到另一个背景图像里，目标是得到“看起来真实”的复合图像。作者把“看起来不真实”的原因抽象为前景与背景之间的不一致，并把解决问题拆成若干子任务（每个子任务解决不同类型的不一致），最后总结了方法、数据集、评测指标，并提供了代码和工具库。

“边界（Boundary）”：指精细化前景与背景之间的边界。
“外观（Appearance）”：指调整前景的光照。
“阴影（Shadow）”：指为前景生成阴影。
“反射（Reflection）”：指为前景生成反射。
“几何（Geometry）”：指在考虑几何约束的情况下，寻找前景的合理位置、大小和形状。
“遮挡（Occlusion）”：指处理不合理的遮挡情况。
“语义（Semantics）”：指为物体找到合适的语义上下文。

Abstract

“As a common image editing operation, image composition (object insertion) aims to combine the foreground from one image and another background image, resulting in a composite image.”

→ 说明研究对象：把前景（object）从一张图剪出来、放到另一张背景图上，得到合成图。

图像合成（object insertion）就是把一个前景对象合理地放到另一个背景里，要让结果“看起来像真”的关键在于解决前景与背景之间的不一致性：外观（illumination / color），几何（尺度/透视/遮挡），语义（是否合理放在这个场景里）。综述把问题拆成若干子任务（placement、blending、harmonization、shadow/reflection 等），这些子任务可串联或并行完成，最后组合出真实的合成图像。
“However, there are many issues that could make the composite images unrealistic. These issues can be summarized as the inconsistency between foreground and background, which includes appearance inconsistency (e.g., incompatible illumination), geometry inconsistency (e.g., unreasonable size), and semantic inconsistency (e.g., mismatched semantic context).”

→ 指出主要困难：前景和背景在外观（亮度、色调、材质/高光）、几何（尺度、透视、遮挡、形状）和语义（比如把船放在沙漠里）等方面可能不匹配，从而显得假。

“不一致性”细分（为什么合成会假的根源）

Appearance 不一致（外观/光照/色彩）： 前景的亮度、色调、色温、色彩分布与背景不匹配（例如室内白天插入夜景下的车灯）。
Geometry 不一致（尺度/透视/深度/遮挡）： 前景大小不合比例、方向/投影不对、前景应被背景遮挡却没有遮挡（或反之）。
Semantic 不一致（语义/情境）： 语义上不合理（比如把沙发贴到马路中央），或与上下文功能不符（物理不可放置处）。

这三类问题往往交织：比如错误的尺度会同时让投影和阴影不对，从而暴露语义与外观不协调。

“Image composition task could be decomposed into multiple sub-tasks, in which each sub-task targets at one or more issues. Specifically, object placement aims to find reasonable scale, location, and shape for the foreground. Image blending aims to address the unnatural boundary between foreground and background. Image harmonization aims to adjust the illumination statistics of foreground. Shadow (resp., reflection) generation aims to generate plausible shadow (resp., reflection) for the foreground. These sub-tasks can be executed sequentially or parallelly to acquire realistic composite images.”

→ 把整个合成任务拆成若干可控的子问题：
- Object placement（物体放置）：决定放在哪儿、放多大、放成什么形状（需要考虑透视、深度、可放置区域）。
- Image blending（图像融合 / 边界处理）：处理剪切边缘、缝隙、羽化、混合接缝，使边界自然。
- Image harmonization（图像调和）：调整前景的颜色/亮度/对比度/色温等，使其整体光照与背景一致。
- Shadow / Reflection generation（阴影/反射生成）：生成与场景光照一致的阴影或反射，增强“物体确实在场景中”的感觉。
  
  这些步骤可以按顺序（模块化流水线）做，也可以设计并行或端到端的模型一次性输出最终合成图。
“To the best of our knowledge, there is no previous survey on image composition (object insertion). In this paper, we conduct comprehensive survey over the sub-tasks and combinatorial task of image composition (object insertion). For each one, we summarize the existing methods, available datasets, and common evaluation metrics.”

→ 说明贡献：作者做了全面的综述，覆盖上面提到的各子任务和它们的“组合”问题，并对方法/数据集/评测做归纳。

任务组合：顺序 vs 联合（pros/cons）
- 顺序式（pipeline）：先 placement → 再 blending → 再 harmonization → 再 shadow。优点可插拔、每步可针对性优化；缺点是误差累积（先前步骤的小错会放大），优化较难全局协调。
- 联合/端到端：用一个模型（如条件生成模型 / 条件扩散模型 / conditional GAN）直接从 (B, F, mask) 输出最终合成图像。优点是学习到整体协调（颜色、纹理、阴影一体化）；缺点需大量带真值的数据，控制变得困难，解释性弱。
  
  实话实说：目前最稳妥的工程做法通常是“混合式”——关键子任务（尤其几何/placement、阴影）利用物理或规则先验约束，外观微调用学习方法；完全端到端的生成方法虽然效果有希望，但在可控性和可解释性上仍有短板。
“Datasets and codes for image composition are summarized at https://github.com/bcmi/Awesome-Image-Composition. We have also contributed the first image composition toolbox: libcom https://github.com/bcmi/libcom, which assembles 10+ image composition related functions (e.g., image blending, image harmonization, object placement, shadow generation, generative composition). The ultimate goal of this toolbox is solving all the problems related to image composition with simple ‘import libcom’.”

→ 附带资源：列出了一个资源汇总（Awesome 列表）和一个工具箱 libcom，目的是把常见的图像合成功能整合成一个开发者友好的库，方便实验和复现。

常用损失与评价（短清单）
- 像素级：L1 / L2（用于重建）；PSNR/SSIM（用于配对 GT）。
- 感知级：LPIPS、VGG 感知损失（反映高层语义/纹理相似性）。
- 生成对抗：GAN 损失（提升真实感但不稳定）。
- 语义/场景一致性：用预训练分类/分割网络的特征相似度，或用 CLIP 来衡量语义一致性（CLIP 相似度越高，语义越匹配）。
- 主观评估：用户研究（MOS）通常还是必须的，因为“看起来真实”太主观。

Introduction

边界问题通过图像融合技术来解决；
光照不匹配通过图像调和来解决；
阴影和反射缺失通过生成合适的阴影和反射来解决；
分辨率和噪声差异通过超分辨率、去模糊、去噪声技术来解决。

1. 图像合成的概念

图像合成（Image composition）是指将来自不同来源的图像元素（如前景和背景）合并成一张新图的操作，通常用于图像编辑中。合成的目的是得到一个看起来自然、真实的图像。然而，这个过程会遇到一些挑战，特别是前景（通常是被插入到图像中的物体）和背景之间的“不一致性”。这些不一致性包括外观、几何、语义方面的差异。

2. 外观不一致性（Appearance Inconsistency）

这部分探讨了合成图像时，前景和背景之间的外观差异，具体来说包括四个主要问题：

1) 不自然的边界

当前景从源图像中提取出来后，往往会留下不规则的边缘，尤其是当图像分割或抠图算法不够精准时。这种 jagged 或锯齿状的边缘，在合成图像中会表现为颜色伪影，即前景和背景之间的过渡不自然。为了解决这个问题，通常采用图像融合（Image Blending）技术，将前景和背景的边界平滑融合，使其更自然地过渡。

常见方法：

图像分割（Image segmentation）或抠图（Matting）：这些技术用于从背景中分离前景，但边缘常常不够平滑。
图像融合（Image blending）：利用渐变或其他平滑技术，使前景和背景的边界无缝衔接。

2) 前景和背景光照统计不兼容

前景和背景可能是在不同的环境条件下拍摄的，例如前景可能是在白天拍摄，而背景则是夜晚场景。不同的拍摄条件会导致两者之间的光照不匹配，从而使合成图像显得不和谐。为了解决这一问题，图像调和（Image Harmonization）技术通过调整前景的光照统计数据，使其与背景光照条件相符，从而使整个图像看起来更加和谐。

常见方法：

图像调和（Image harmonization）：这项技术通常通过改变前景的亮度、对比度、色温等，来使前景与背景的光照条件一致。

3) 前景的阴影和反射缺失或不可信

在合成过程中，前景放置到背景中时，往往会在背景上投下阴影，或者在光滑的表面上产生反射。如果这些阴影或反射没有被正确生成或看起来不自然，整个合成图像就会显得不真实。因此，阴影生成（Shadow Generation）和反射生成（Reflection Generation）技术被用来根据前景和背景的信息，生成自然、合理的阴影或反射。

常见方法：

阴影生成（Shadow generation）：根据场景光源和前景物体的相对位置，生成合适的阴影。
反射生成（Reflection generation）：在反射表面生成合适的反射效果，通常需要考虑反射表面的材质特性和光源方向。

4) 前景和背景的分辨率、清晰度和噪声不匹配

有时，前景和背景可能来自不同分辨率、不同清晰度或噪声水平的图像，这种差异会影响合成图像的自然性。例如，前景可能是低分辨率或模糊的，而背景则是清晰的，或者两者的噪声模式不同。为了解决这些问题，可以采用超分辨率（Super-Resolution）、去模糊（Deblurring）和去噪声（Denoising）等技术来调整前景或背景的质量，使其更加匹配。

常见方法：

超分辨率（Super-resolution）：提高前景的分辨率，使其与背景的清晰度相匹配。
去模糊（Deblurring）：如果前景图像模糊，可以使用去模糊技术恢复细节。
去噪声（Denoising）：如果前景或背景中有噪声，可以使用去噪声技术减少噪点，使图像更加干净。

3. 几何不一致性（Geometric Inconsistency）

几何不一致性指的是前景和背景之间在空间布局上的不协调，具体表现为：

前景物体的大小不合理（例如，前景物体显得过大或过小）
前景物体缺乏合理的支撑力（例如，物体悬空）
不合理的遮挡（例如，前景物体与背景物体之间没有合适的遮挡关系）
前景和背景之间的透视不一致（例如，前景物体的透视角度与背景的透视角度不一致）

这些问题通常源于前景物体在合成时没有考虑到正确的几何约束，比如位置、大小和形状。因此，图像合成中的几何不一致性问题，通常需要通过物体放置（Object Placement）技术来解决。

物体放置（Object Placement）技术

物体放置的目标是通过合适的空间变换（如位置、大小、形状的调整）来解决几何不一致性问题。常见的方法包括：

简单的空间变换：如平移（shifting）和缩放（scaling），通过简单的调整来使前景物体与背景协调。
更一般化的空间变换：如仿射变换（Affine Transformation）、透视变换（Perspective Transformation）、薄板样条变换（Thin Plate Spline Transformation），这些方法可以更精确地调整前景的位置和形状。
更高级的几何变换：如视图合成（View Synthesis）和姿态转换（Pose Transfer），这些方法可以改变前景的观察角度或姿势，进一步修正几何不一致性。

此外，遮挡问题也是几何不一致性的一部分。当前景物体放置在背景中时，可能会发生不合理的遮挡。为了解决这个问题，部分方法会基于深度估计（Depth Estimation）来去除前景中被遮挡的部分。

4. 语义不一致性（Semantic Inconsistency）

语义不一致性涉及的是前景和背景在语义层面上的不协调，主要表现为：

前景物体出现在语义上不合理的地方（例如，一只斑马出现在客厅里）
前景物体与其他物体或人物的交互不合理（例如，一个骑摩托车的人，人与摩托车的方向相反）
背景可能对前景外观产生语义影响（例如，前景物体的外观会因背景而发生变化）

语义不一致性的问题通常是由常识知识判断的，因此，语义不一致的案例可能因主观判断而有所不同。例如，如果一辆车被放置在水中，可以有不同的解释：也许是车发生了事故沉入水中；但从常见的情境来看，这种事件的概率较低，因此可以认为这辆车出现在不合理的位置，从而判断为语义不一致。

解决语义不一致性

部分语义不一致性问题可以通过物体放置来解决。例如，通过预测合适的空间变换，前景物体可以被放置到一个合理的位置，或者调整前景的姿势，使其与环境中的其他物体的交互更自然、更可信。

另一个方面是前景外观的语义变化，这种变化不同于低级的外观不一致性（如光照、阴影）。例如：

前景物体的外观可能会受到背景语义的影响：比如一辆车放在雪地上时，车身可能会被雪覆盖；又如一个学生被插入到穿着校服的学生群体中时，他也应该穿上相同的校服。

这种语义外观的变化非常灵活且具有挑战性，因此在这篇综述中并没有详细讨论这部分内容。

5. 子任务顺序与并行处理

在图像合成中，通常会将任务分解为多个子任务，每个子任务解决图像合成中的某一个特定问题（如前景和背景的边界问题、光照匹配、阴影生成等）。传统方法往往按顺序执行这些任务，即逐步调整每个细节。例如：

物体放置（Object Placement）会首先确定前景的位置、大小和形状，使其与背景协调；
接下来，图像融合（Image Blending）处理前景和背景的边界，使它们无缝衔接；
然后，图像调和（Image Harmonization）用来调整前景的光照，使前景与背景在光照条件上保持一致；
最后，阴影生成（Shadow Generation）为前景生成合适的阴影，使其更加逼真。

这种顺序的好处是每个子任务逐步完善合成图像，解决不同层次的问题，最终得到高质量的合成图像。

并行处理：生成式图像合成

随着扩散模型（Diffusion Models）在生成任务中的成功，一些最新的研究开始探索并行处理多个子任务。例如，某些方法利用扩散模型来同时处理图像融合、图像调和和视图合成等任务。这些方法不仅能同时处理多个任务，还能够通过生成式的方式，重新生成前景物体，而不是仅对前景进行局部调整。因此，这些方法被称为生成式图像合成方法（Generative Image Composition）。这些方法的优势在于它们可以自动生成一个无缝且和谐的合成图像，而无需进行逐步调整。

例如：

给定前景和背景的边框信息，生成式方法会直接输出合成图像，前景和背景无缝融合，光照、阴影等问题也得到处理。

可控图像合成：控制每个子任务

为了让图像合成过程更具可控性，Zhang等人提出了一种名为ControlCom的原型。它通过一个二维的二进制指示向量来控制哪些子任务被执行（例如，前景物体的光照或姿势调整）。如果有多个子任务，可以使用一个K维的二进制指示向量来决定需要执行的子任务，从而实现更精细的控制。这种方法的核心在于提供了一个灵活的控制机制，可以在并行处理中选择性地激活或关闭某些子任务。

6. 前景对象搜索（Foreground Object Search）

除了直接合成前景和背景，有时也可以通过搜索一个前景库来寻找合适的前景对象。这些前景对象已经经过预处理，能够与背景在光照、几何、语义等方面兼容，从而避免了复杂的合成操作。前景对象搜索（Foreground Object Search）方法是当我们拥有一个高质量、覆盖广泛的前景库时非常有用的技术。通过这种方法，用户可以直接从库中挑选合适的前景对象，并将其无缝插入到背景中，极大地减少了手动调节的工作量。

7. 图像合成的应用场景

图像合成技术在多个领域有着广泛的应用，包括：

娱乐：比如在电影或视频游戏中进行背景替换，创造虚拟场景；
虚拟现实：在虚拟会议室或虚拟卡牌游戏中，可以用图像合成技术替换背景或生成新的虚拟环境；
艺术创作：艺术家可以使用图像合成技术创作出本来只存在于想象中的奇幻艺术作品；
电子商务：商品可以在虚拟背景中插入，如虚拟试衣间或虚拟家居装饰，帮助消费者在选择商品时更直观；
广告：图像合成可以用于广告中的产品插入，或是广告Logo的合成，帮助广告商将产品或品牌形象嵌入到目标图像中；
数据增强：图像合成可以生成与真实图像相似的合成图像，用于增强训练数据，帮助下游任务（如物体检测、实例分割等）提高模型性能。

这些应用展示了图像合成技术在各个行业中的巨大潜力，不仅能提高创作效率，还能创造出更为生动、现实的视觉效果。

8. 论文结构和贡献总结

在接下来的论文中，作者将详细介绍每个子任务及其结合任务的技术实现，包括：

物体放置（Section II）
图像融合（Section III）
图像调和（Section IV）
阴影生成（Section V）
反射生成（Section VI）
生成式图像合成（Section VII）
前景对象搜索（Section VIII）

每个部分都会介绍现有的方法、可用的数据集和常见的评估指标。最后，论文将在第九节总结全文，提供未来研究的路线图。

论文的主要贡献总结如下：

这是首篇关于深度图像合成（对象插入）的全面综述。
论文总结了图像合成中的问题，明确了不一致性、子任务和管道之间的关系，并通过表格展示了不同问题的解决方法。
为每个子任务和结合任务提供了现有方法的详细调查，并为未来的研究提供了清晰的方向。

OBJECT PLACEMENT

物体放置（Object Placement）是将前景物体以适当的位置、大小和形状放置到背景图像上的过程。目标是确保前景物体在背景中看起来自然合理。合适的物体放置涉及解决多个潜在问题，如大小不匹配、遮挡问题和视角不一致等。下面是对物体放置任务的详细讲解。

物体放置的挑战

物体放置会面临很多挑战，导致合成图像看起来不真实：

不合适的大小：前景物体可能与背景的比例不协调，例如狗狗看起来比背景中的环境大得多。
不合理的遮挡：前景物体与背景中的其他物体可能发生不自然的遮挡，像长颈鹿遮挡了应该显示的围栏。
不自然的力学条件：前景物体可能没有遵循物理规律，例如行李箱在空中漂浮，没有支撑。
语义上不合理的放置：前景物体可能出现在不自然的地方，例如船停在陆地上，违反了常识。
视角不一致：前景物体与背景的视角不一致，例如汽车和公交车的视角不同，使得它们合成在一起时显得不自然。

这些问题表明，物体放置任务非常复杂，因为它需要考虑几何、物理和视觉上下文等因素，以实现一个真实的合成图像。

A. 传统方法

在深度学习方法流行之前，许多物体放置方法采用了基于规则的显式策略，通过预设的规则来预测前景物体合理的放置位置、大小和形状。以下是一些传统方法：

Remez 等人（1998）：他们提出将前景物体沿着背景的相同水平扫描线移动。假设位于同一水平扫描线上的位置具有相似的深度，因此可以保持前景物体的实际大小。
Wang 等人（2011）：他们采用了实例切换策略，通过交换相同类别的不同实例来生成新图像，前提是这些实例具有相似的形状和大小。这有助于保持前景物体在背景中的一致性。
Fang 等人（2017）：他们探索了外观一致性热图，引导前景物体移动到背景中与其原始视觉上下文相似的位置。热图衡量潜在放置点的上下文与前景物体原始上下文的相似度。
Georgakis 等人（2018）：他们结合了支撑面检测和语义分割，来寻找合适的放置位置。确定位置后，物体的大小根据该位置的深度和物体的原始尺度来决定。
Zhang 等人（2020）：他们使用**高斯混合模型（GMM）**来建模基于背景图像和前景类别的边界框参数（位置、大小）概率分布。这使得在背景和前景类别的结合上更加细致。

虽然这些传统方法在一些情况下有效，但它们存在一些限制：

过于简化的假设，例如认为同一类别的物体应该以相同的方式处理，这使得它们在处理复杂场景时显得不够灵活。
缺乏足够的灵活性，难以应对现实世界中的多样化背景和前景条件。

B. 深度学习方法

近年来，深度学习技术成为物体放置的主流方法，因为它能够自动处理复杂任务，并从大量数据中学习。这些方法能够通过学习前景和背景图像对的特征，自动预测前景物体的放置位置。深度学习方法大致分为两类：

1. 类别特定物体放置

类别特定物体放置方法旨在根据前景物体的类别（例如狗、车、人物等）来预测前景物体在背景中的合理放置位置。这类方法可以分为生成式方法（Generative Approach）和判别式方法（Discriminative Approach）。

在类别特定物体放置中，模型的目标是根据前景物体的类别（例如狗、车等）和背景图像预测合适的边界框（位置和大小）。这种方法假设，对于同一类别的所有物体，预测的边界框应该适用。然而，这一假设存在局限性，因为同一类别的物体可能在几何形状、细粒度语义等方面有所不同，因此需要不同的放置位置和尺度。

例如，某些狗比其他狗大，或者狗可能是站立的，也可能是躺着的，这就意味着它们的放置位置和大小会有所不同。因此，这种方法在处理类别内差异时显得不够灵活。

生成式方法（Generative Approaches）

生成式方法的目标是预测一个或多个合理的边界框，给定前景类别和背景图像。生成式方法通过将边界框预测任务转换为分类任务来处理。例如：

Tan 等人（2017）提出了通过背景图像和物体布局来预测插入物体的位置和大小，并通过离散化位置和尺度将边界框预测转换为分类任务。
Lee 等人（2019）研究了将背景语义图作为输入，而不是背景图像。他们设计了一个网络，包含两个生成模块：第一个模块负责预测物体的边界框，第二个模块负责预测物体的形状（mask）。
Parihar 等人（2020）专注于“人物”类别，并结合了文本到图像生成模型的先验知识，联合优化前景的mask和前景图像，使其适应背景和文本提示，从而预测人物的放置。

判别式方法（Discriminative Approaches）

判别式方法的目标是预测给定前景类别的边界框是否合适。判别式方法可以进一步分为慢速判别式方法（Slow Discriminative Approach）和快速判别式方法（Fast Discriminative Approach）。

慢速判别式方法：输入背景图像和前景物体的边界框，通过网络预测边界框的合理性得分。此方法需要对每个边界框进行一次处理，因此计算成本较高。
快速判别式方法：输入背景图像，通过滑动窗口生成特征图，进而预测每个边界框的合理性得分。例如，Volokitin 等人（2019）采用了掩模卷积（masked convolution），有效地在四个方向上汇总背景信息，减少了计算时间。

2. 实例特定物体放置

与类别特定物体放置不同，实例特定物体放置方法旨在预测给定特定前景物体的空间变换（例如平移、缩放、旋转）。这种方法可以考虑前景物体的独特属性，比如：

物体的大小和形状。
物体的语义，例如狗是躺着还是站着。
前景物体与背景中其他物体之间的相对位置，例如确保狗站在地面上，而不是漂浮在空中。

这种方法比类别特定方法更为灵活和准确，因为它能够针对每个前景物体的独特性做出预测。

与类别特定物体放置方法不同，实例特定物体放置方法针对每个具体的前景物体，预测其合理的空间变换（如平移、缩放、旋转等）。实例特定物体放置方法也可以分为生成式方法和判别式方法。

生成式方法（Generative Approaches）

生成式方法在实例特定放置中更为灵活，可以预测前景物体的多种空间变换（例如平移、仿射变换、透视变换等），比类别特定放置方法更强大。以下是几种常见的生成式方法：

Tripathi 等人（2017）开发了一个生成器、判别器和目标网络组成的模型。给定背景和前景，生成器预测前景物体的仿射变换，生成合成图像，并通过判别器与目标网络的任务（例如物体检测）进行适配。
Zhan 等人（2019）采用空间变换网络（STN）来预测前景物体的扭曲参数，并结合对抗学习框架来优化物体放置。
*Zhang 等人（2020）**结合前景特征、背景特征和随机向量来预测物体放置，从而保证了放置的多样性，通过让预测放置之间的距离尽可能接近相应的随机向量。
Zhou 等人（2021）提出了将物体放置问题转化为图补全任务，背景节点具有内容特征和放置信息，前景节点仅具有内容特征，通过推断前景节点的缺失位置来完成图的补全。
Zhang 等人（2021）使用强化学习进行顺序决策，以产生合理的物体放置。

在更复杂的几何变换方面，如视角合成和姿态转换，生成式方法也能够更好地应对。例如：

Azadi 等人（2018）采用STN来扭曲前景，并通过相对外观流网络改变前景的视角。
ST-GAN（2019）提出通过STN预测的迭代空间变换来扭曲前景物体，使其适应背景图像。
Kikuchi 等人（2020）改进了ST-GAN，使用一次性空间变换替代了迭代空间变换。

判别式方法（Discriminative Approaches）

判别式方法的目标是预测合成图像中前景物体放置是否合理。判别式方法同样分为慢速判别式方法和快速判别式方法。

慢速判别式方法：输入已合成的图像，网络根据合成图像预测前景物体放置的合理性得分。
快速判别式方法：输入前景和背景图像对，网络预测一个合理性得分图，用于评估整个合成过程的合理性。

SimOPA方法（Slow Object Placement Assessment）
- Liu 等人（2019）提出了一个判别式方法，称为 SimOPA，用于验证合成图像中前景物体放置的合理性。具体来说，SimOPA将合成图像和前景的mask（遮罩）拼接起来，然后输入到一个二分类网络中，以预测图像的合理性得分。
- 然而，这个方法存在效率问题，因为需要对每个前景位置进行多次网络传递来找到合理的放置位置。也就是说，SimOPA的计算开销比较大。
FOPA方法（Fast Object Placement Assessment）
- 为了解决SimOPA的效率问题，Niu 等人（2020）提出了一个快速物体放置评估模型（FOPA）。与SimOPA不同，FOPA只需要通过网络一次就能预测所有位置的合理性得分。
- FOPA的工作流程如下：输入背景图像和已缩放的前景图像，生成一个合理性得分图，图中的每个位置表示将前景放置在该位置时合成图像的合理性得分。
- 为了缩小FOPA与SimOPA之间的性能差距，FOPA还引入了一些创新技术，例如背景先验传递和特征模仿。
- 结果表明，FOPA在大幅降低计算成本的同时，能够与SimOPA提供相当的性能。更重要的是，FOPA在生成真实感合成图像的能力上，甚至超越了传统的生成式方法（如Zhou 等人[259]和Zhang 等人[246]的方法）。
Transformer-based方法
- 类似于FOPA，Zhu 等人（2021）提出了一种新的方法，基于前景与背景之间的交互输出，利用Transformer架构预测所有尺度和位置的合理性得分。该方法通过Transformers来建模前景和背景之间的复杂关系，进一步提升了物体放置的精度。
- 此外，Zhu 等人还探索了如何使用无标注图像以及设计专门的损失函数，来提高物体放置任务的效果。

遮挡问题的处理：

大部分上述的物体放置方法，旨在避免不合理的遮挡，也就是确保插入的前景物体不会被背景物体遮挡。然而，一些方法则尝试在已经发生不合理遮挡的情况下，进行修复和调整：

例如，Azadi 等人（2018）和Volokitin 等人（2019）等方法，会先估计前景物体与背景物体之间的相对深度关系。然后，根据这个深度信息，去除前景中被背景物体遮挡的部分，从而生成合理的物体间遮挡效果。
这些方法能够在合成过程中保证前景物体和背景物体之间的遮挡关系更符合实际情况，从而增强合成图像的自然感。

总结：

SimOPA方法虽然准确，但效率低下，多个前景位置需要重复评估。
FOPA解决了效率问题，采用一次性通过网络的方式来评估所有位置的合理性得分，同时保留了高性能，甚至在某些任务上超过了生成式方法。
Zhu 等人通过使用Transformer模型进一步增强了物体放置的精度，并通过无标注图像和特殊损失函数的设计提高了方法的鲁棒性。
在遮挡问题的处理上，大多数方法避免遮挡，而部分方法则通过深度估计和遮挡修复技术，生成更自然的合成图像。

生成式方法与判别式方法对比

生成式方法：通过直接生成前景物体的合理位置、大小或变换参数，灵活性更强，能够应对更复杂的场景和变换，如视角变化和姿态转移等。
判别式方法：通过评估已生成的图像或边界框的合理性，通常更高效，但在应对复杂的场景时灵活性较差。

总结

类别特定物体放置方法适用于前景物体属于同一类别的情况，可以根据类别预测物体的合理位置。然而，不同实例之间的差异使得这种方法在处理复杂或多样化场景时显得不够灵活。
实例特定物体放置方法通过对每个前景物体进行专门预测，能够更精确地处理不同物体之间的差异，具有更高的灵活性和适应性。
生成式方法在处理复杂的空间变换时表现出色，能够处理更广泛的物体放置挑战，如姿态变化和视角转换。而判别式方法则在效率上具有优势，适合于快速评估和优化合成结果。

图4：不合理的物体放置示例

这张图展示了几种不合理的物体放置，这些插入的前景物体用红色轮廓标记：

(a) 狗：狗的大小不合适，与周围环境不协调。
(b) 长颈鹿：长颈鹿与背景中的围栏发生了不合理的遮挡，看起来不自然。
(c) 行李箱：行李箱悬浮在空中，缺乏物理支撑，这在现实中是不可行的。
(d) 船：船出现在不合语义的地方，例如放在陆地上，这是不合常理的。
(e) 汽车：汽车与背景中的其他物体在视角上不一致，看起来不协调。

这张图展示了需要解决的不同类型的物体放置不一致性问题。

图5：类别特定物体放置与实例特定物体放置的比较

这张图左边展示了类别特定物体放置（例如“羊”放到草地上）和实例特定物体放置的比较。右边展示了物体放置方法的分类：

类别特定物体放置：模型根据给定的前景类别（例如羊）和背景图像来预测合理的放置位置。
实例特定物体放置：模型根据具体的前景实例（例如特定的一只羊）和背景图像来预测放置位置。

这张图明确了两类物体放置方法的区别，并为后续比较生成式和判别式方法打下了基础。

图6：类别特定物体放置的三种方法

这张图对类别特定物体放置的三种方法进行了对比：

生成式模型（Generative Model）：该方法通过输入前景类别（如“牛”）和背景图像来生成一个合理的边界框（即位置和大小）。它直接输出物体的放置位置和大小。
慢速判别式模型（Slow Discriminative Model）：输入前景类别、前景的边界框和背景图像，模型预测合理性得分，评估物体放置是否合适。
快速判别式模型（Fast Discriminative Model）：与慢速模型相似，但它通过对特征图进行滑动窗口处理，快速计算每个边界框的合理性得分。

C. 数据集和评估指标

数据集

早期的应用与数据增强
- 在早期的工作中（如 [183, 38]），物体放置被用作数据增强的策略，以促进下游任务（例如物体检测、实例分割）。在这些方法中，使用了现有的物体检测和实例分割数据集（如 COCO、PASCAL VOC 等）：
  - 前景物体是通过从标注的分割掩膜中剪裁出来的。
  - 剪裁前景物体后，剩余的背景图像通过图像修复（Image Inpainting）技术（如 [225, 112, 227]）恢复为完整的背景图像。
  - 这种方法可以得到前景、背景和真实合成图像的三元组。
特定应用的数据集
- 一些方法专注于特定的应用，例如2D虚拟试穿（如 [107, 78, 100]，例如将眼镜或帽子放在人脸上）或Logo合成（如 [99]，例如将Logo附加到产品图像上）。
- 对于这些应用，它们需要专门收集用于这些任务的前景和背景图像。
大规模数据集：OPA和OPAZ
- 最近，Liu 等人（2020）发布了一个大规模的物体放置评估数据集，叫做 OPA（Object Placement Assessment）。这个数据集包含了73,470个合成图像及其二分类的合理性标签。OPA数据集是通过将前景和背景从COCO数据集（[108]）中组合生成的，然后手动标注了合成图像的合理性。
- OPA数据集的发布为物体放置的研究提供了大量的标注合成图像，这对该领域的研究具有很大帮助。
- *Qin 等人（2020）**基于OPA格式建立了 OPAZ 数据集。

评估指标

为了评估生成的合成图像的质量，物体放置领域的研究采用了以下几种评估方案：

相似度度量
- 一些工作通过衡量真实图像和合成图像之间的相似度来评估图像质量。例如：
  - *Tan 等人（2017）**评分时衡量了预测框与真实框的分布之间的相关性。
  - Zhang 等人（2020）计算了合成图像和真实图像之间的Frechet Inception Distance (FID)，该方法评估了两者之间的分布差异。
- 然而，这些方法无法对每个合成图像进行单独的评估，只能提供总体上的质量度量。
下游任务性能提升
- 另一些工作利用下游任务（例如物体检测）的性能提升来评估合成图像的质量。具体做法是通过生成的合成图像来增强下游任务的训练集，然后观察任务性能的改善。
- 这种评估方法的计算成本很高，而且性能提升可能并不可靠地反映合成图像的质量，因为有研究发现，随机生成的不真实的合成图像也能提高下游任务的性能【[49]】。
用户研究
- 用户研究是一种常见的评估策略，其中人类评估者被要求对物体放置的合理性打分。这种方法符合人类感知，并且每个合成图像可以单独评估。
- 例如，OPA数据集中的合成图像已经被标注，可以用于测试和评估。然而，由于标注稀疏，只涵盖了少数位置和尺度，因此不能广泛评估任意合成结果。
二分类器
- 为了支持任意合成结果的评估，可以训练一个二分类器，基于标注的正例和负例合成图像，预测任意合成图像的合理性得分。这个方法可以扩展到更广泛的评估任务中。

D. 实验

在这一节中，作者专注于实例特定物体放置（Instance-specific Object Placement），并比较了几种物体放置方法的表现，以生成合理的合成图像。为了方便比较，实验中将前景的尺度固定，只预测前景物体的合理位置。

方法选择：生成式与判别式方法

生成式方法（Generative Approaches）
- TERSE [183]：这是一种生成式方法，可以直接预测一个合理的前景位置。
- PlaceNet [240]：这也是一种生成式方法，能够直接预测前景的合理位置。
判别式方法（Discriminative Approaches）
- SimOPA [113]：这是一种判别式方法，通过生成合理性得分图来评估每个位置的合理性。
- FOPA [132]：这也是一种判别式方法，通过类似的方式生成合理性得分图，并选择得分最高的位置作为最优放置点。

实验设置

数据集：所有方法都在 OPA 数据集（[113]）上进行训练和评估。OPA 数据集包含大量的合成图像和标注的合理性得分，可以用于评估物体放置方法的效果。
测试结果：实验结果展示在图8 中，从中可以看出，判别式方法通常比生成式方法表现得更好。

实验分析

判别式方法表现更好：
- SimOPA 和 FOPA 等判别式方法通常能够生成更为合理的物体放置位置。一个可能的原因是，生成式方法（如TERSE和PlaceNet）只利用了标注的合成图像来更新判别器，而没有充分利用这些标注来训练生成器。这可能导致生成器在生成合理位置时存在不足。
判别式方法的失败案例：
- 尽管判别式方法在大多数情况下表现更好，但它们在处理遮挡和复杂场景时仍然存在失败的情况。例如，在第4行中，消防栓和倒下的树枝之间的不合理遮挡就是一个失败案例。

实践建议

快速判别式方法（Fast Discriminative Approaches）：基于实验结果，作者建议使用 FOPA [132] 和 Zhu 等人（2021）提出的方法等快速判别式方法，因为这些方法在稳定性、有效性和灵活性上表现更好。快速判别式方法能够更高效地处理物体放置任务，避免了传统判别式方法中的计算瓶颈。

总结

生成式方法（如TERSE和PlaceNet）在物体放置任务中能够预测合理的位置，但由于它们没有充分利用标注数据来训练生成器，导致生成的结果可能不如判别式方法。
判别式方法（如SimOPA和FOPA）通常能生成更为准确的物体放置，但在处理复杂场景和遮挡时仍然会出现问题。
快速判别式方法（如FOPA）由于其高效和稳定性，是更为实用的选择。

Image Blending

在图像合成过程中，前景通常是通过图像分割（image segmentation）或抠图（matting）方法提取的。然而，分割或抠图的结果可能是噪声较多的，前景物体的边界也不够精确。当有锯齿状的前景边界被放置到背景上时，前景与背景之间会出现突兀的强度变化，导致视觉上的不自然。为了精细化边界并减少模糊感，图像融合技术应运而生。

A. 传统方法

传统的图像融合方法的目标是平滑前景和背景之间的过渡，减少边界的不自然感。

Alpha融合（Alpha Blending）
- Alpha Blending 是一种经典的图像融合方法，它为边界像素分配Alpha值，表示前景和背景的颜色混合比例。该方法需要手动设置Alpha值。尽管这种方法简单快速，但它会模糊细节，并带来鬼影效应（即边界部分变得模糊不清）。
拉普拉斯金字塔融合（Laplacian Pyramid Blending）
- Laplacian Pyramid Blending 使用拉普拉斯金字塔将图像分解为不同尺度的多个层次，然后在每个尺度上进行Alpha融合，最后通过将不同尺度的结果加起来，得到最终合成图像。该方法能够更好地处理多尺度信息，使得融合效果更加平滑。
Poisson图像融合（Poisson Image Blending）
- Poisson图像融合 是一种基于梯度域平滑的图像融合方法。该方法强制保持前景图像的梯度在插入到背景图像时的一致性，通过计算并传播前景插入部分的梯度，来平滑前景与背景之间的过渡。Poisson图像融合比简单的Alpha融合效果更好，但由于需要解决Poisson方程，计算开销较大。
- 之后，许多研究工作（如 [171, 175, 76]）通过不同的技术加速Poisson图像融合的过程。例如，通过优化边界条件和采用加权集成方案，Tao等人（2018）提出了一种两步算法，先处理边界的梯度值，再通过加权方法重构图像，以避免Poisson图像融合中的色彩溢出和光晕效应。

传统方法虽然在某些场景下有效，但它们也存在一些局限性：

边界模糊：尤其是在Poisson图像融合中，可能会让背景的颜色渗透到前景中，从而失去前景的真实色彩，造成前景内容的显著损失。

B. 基于深度学习的方法

近年来，受到传统图像融合方法的启发，许多深度学习方法被提出，旨在将平滑前景和背景之间过渡的功能融入深度神经网络中。

基于传统方法的深度学习改进
- 一些研究（如 [210, 241, 237]）将Poisson图像融合的方法融入到了深度学习网络中，以实现平滑的边界过渡并减少前景和背景之间的光照差异。这些方法在优化目标函数时加入了梯度域约束，确保前景和背景之间的梯度一致性，生成平滑的边界。
  - 例如，[210]采用了封闭解法，而[241]则将梯度域损失转化为可微分损失函数，并使用梯度下降算法进行优化。
可学习的图像融合（Learnable Image Blending）
- 与传统方法不同，**[237, 215]**提出了可学习的图像融合方法，旨在通过输入前景图像和背景图像生成无缝融合的图像。这些方法通过使用多尺度特征提取器来对前景和背景进行融合。
  - Zhang等人（2019）的工作中，融合网络采用了两个独立的编码器来提取和融合前景和背景的多尺度特征。这些方法通过Ground-truth alpha matte作为监督来训练融合网络，并提出了易到难的数据增强方案，减轻了标注真实alpha matte的负担。
  - *Xing等人（2020）**提出了将前景图像、背景图像和不完美的mask作为输入，生成融合后的图像。这些方法能够细化不完美的mask，并生成更自然的融合图像。
无mask图像融合（Mask-free Image Blending）
- Mask-free Image Blending 是一种新兴的技术，它不依赖于初始的mask预测。ControlCom（2020） 就是基于这种技术，输入一个包围前景物体的前景图像和一个带有前景位置的背景图像，直接生成合成图像。通过去除初始mask预测的负担，mask-free方法避免了初始mask质量对结果的影响。
- 然而，mask-free方法的缺点是前景物体的形状可能会稍微改变，且可能会丢失一些细节。

C. 数据集和评估指标

数据集

目前，针对图像融合的深度学习方法（如 [210, 241, 237]）较少，而且还没有统一的基准数据集。现有的工作通常从以下来源获取图像：

Wu 等人（2019）：从瞬时属性数据库（Transient Attributes Database）中手动剪裁出物体，用来创建合成图像。
Zhang 等人（2019）：从分割数据集（如 [63, 156]）中提取前景图像，并随机选择背景图像来构建输入对。

评估指标

现有的深度图像融合方法通常采用以下几种评估策略：

PSNR（峰值信噪比）：
- Zhang 等人（2019）使用通过真实alpha matte生成的合成图像作为基准图像，计算生成图像与基准图像之间的PSNR，评估图像质量。
用户研究：
- 一些研究通过用户研究来评估合成图像的真实感，询问用户选择最逼真的图像。
现实感评分：
- [260]中使用了一个预训练模型来计算合成图像的现实感得分，该得分反映了图像的自然度和真实感。

D. 实验

实验设置

实验目标：
- 该实验的目标是评估不同图像融合方法在抠图结果基础上的效果。具体来说，实验先使用最先进的基于三分图（trimap-based）的抠图方法（如 [30, 118, 114]）来预测前景的alpha matte（前景的透明度图），然后将这些抠图结果与背景图像进行融合，查看不同图像融合方法如何优化合成图像。
数据集：
- 从最近的图像抠图数据集（如 [114, 93, 92]）中采样500张前景图像。
- 对于每张前景图像，随机选择两张背景图像来自BG20K数据集（[94]），并将前景和背景组成测试集。
测试方法：
- 以LFPNet（[114]）为例，作为抠图方法预测alpha matte并获得合成图像。接着，使用不同的图像融合方法（如Poisson图像融合、GP-GAN、Zhang等人和MLF）来优化这些合成图像。
- 通过与真实的alpha matte生成的合成图像进行对比，分析不同方法的效果。

实验结果

Poisson图像融合：
- Poisson图像融合（[143]）能够在一定程度上平滑前景和背景之间的过渡，但会导致前景内容的失真，特别是在前景边界的地方。具体来说，背景颜色可能渗透到前景中，影响前景的颜色。
GP-GAN 和 Zhang 等人：
- GP-GAN（[210]）和Zhang等人（2019）的方法都受到了Poisson图像融合的启发，但它们通过引入内容损失来保持前景的原始内容，从而在平滑边界和保留前景内容之间取得平衡。然而，这些方法在某些平滑的边界区域仍然不够理想。
MLF（[237]）：
- MLF方法在某些情况下可以产生视觉上令人满意的效果，但它可能会抹去细节（例如，菠萝的小叶子），并且在处理透明前景物体（例如塑料袋）时表现不佳。

实际应用建议

根据实验结果，作者提出了以下应用建议：

传统图像融合方法：
- *Alpha Blending（Alpha融合）**适用于前景mask准确且对边界清晰度要求不高的情况。
- Poisson图像融合适用于前景与背景具有相似目标颜色的情况。
学习型图像融合方法：
- 对于复杂的场景，建议使用学习型图像融合方法（如 MLF 和 ControlCom）。这些方法能够在大多数情况下生成自然的融合效果，但在处理透明前景物体（如玻璃）和细致边缘（如悬浮的头发丝）时可能会遇到困难。
提高抠图质量：
- 在透明前景和细致边缘的情况下，建议提高图像抠图方法的性能，以便为图像融合提供更精确的前景mask。

Image Harmonization

在图像合成中，前景和背景可能是在不同的拍摄条件下捕捉的（例如，天气、季节、时间或相机设置不同），因此它们的光照特征可能存在显著差异，导致它们看起来不兼容。图像调和旨在调整前景的外观，使其与背景的光照一致，从而使前景和背景融合得更加自然。文中将现有的方法分为基于渲染的方法和非基于渲染的方法。

A. Rendering-based Methods

传统的图像重光照（Image Relighting）：
- 图像重光照的目标是根据新的光照条件调整图像或图像中物体的外观。例如，**[138, 162, 203, 242, 181]**等方法尝试根据背景的光照调整前景的外观，这与图像调和有一些相似之处。
- 然而，图像重光照通常需要推断显式的光照条件、材质属性或三维几何信息，而这些信息的监督获取既困难又昂贵。此外，这些方法通常对光源有较强的假设，可能无法很好地适应复杂的现实场景。

B. Non-rendering-based Methods

早期传统图像调和方法：
- 早期的传统图像调和方法通过进行颜色转换，使前景与背景在低层次的颜色统计上匹配。这些方法的差异主要体现在匹配细节上：
  - *Xue 等人（2006）**提出训练一个分类器来预测前景和背景之间最适合匹配的颜色区域（如低、中、高区域），然后调整前景的颜色以匹配这些区域。
  - *Lalonde 和 Efros（2007）**提出用颜色簇表示前景和背景，并通过匹配颜色簇来调和图像。
  - *Song 等人（2016）**提出基于前景和背景的灰色像素计算颜色变换（通道尺度），从而调整前景和背景的颜色。
深度学习方法：
- 早期的深度学习方法（如**[232, 15]）通过对抗学习**来使调和后的图像看起来与真实图像无法区分。
- Bhattad 和 Forsyth（2019）受Retinex理论启发，将图像分解为反射（albedo）和光照（shading），并训练一个图像调和模型，使调和后的图像在反射和光照上与输入的合成图像一致。
基于成对监督的图像调和：
- 随着图像调和数据集的出现，成对监督的图像调和方法得到了广泛发展。成对监督方法通过使用前景和背景的配对图像进行训练，以提高调和效果：
  - Tsai 等人（2017）提出了第一个端到端的CNN网络来进行图像调和，并通过辅助的语义分割分支增强了基础的图像调和网络。
  - *Sofiiuk 等人（2019）**利用高层次的语义特征，并将其插入到编码器中提供辅助信息。
  - Cun 和 Pun（2019）设计了一个额外的空间分离注意模块，分别处理前景和背景特征图。
  - Hao 等人（2020）采用了自注意机制来传播来自背景的相关信息到前景。
基于领域自适应的图像调和：
- Cong 等人（2020）提出了背景引导的领域转换任务，通过使用背景的领域代码来引导调和过程，并通过比较前景和背景的领域代码来预测图像的“不和谐”程度，从而选择性地调和那些明显不和谐的合成图像。
风格迁移和对比学习：
- Valanarasu 等人（2021）提出从背景提取风格代码，并将其用于前景的风格迁移。随后，Jiang 等人（2021）提出将图像分解为内容表示和外观表示，然后通过替换前景的外观表示来实现图像调和。
基于扩散模型的图像调和：
- 最近，一些基于扩散的图像调和模型（如 [91, 19, 258, 257, 150, 244]）提出了将扩散模型应用于图像调和任务，通过注入背景光照信息来增强调和效果。

**总结：**图像调和的目标是调整前景和背景之间的光照，使它们在视觉上协调一致。现有的图像调和方法可以分为两大类：

基于渲染的方法：通过重光照和推断光照条件来调整前景的外观，虽然有效，但通常计算开销大，且假设较强。
非基于渲染的方法：这些方法主要通过颜色匹配、对抗学习、风格迁移等技术来调整前景的颜色和外观，使前景与背景更自然地融合。

C. Variants of Image Harmonization Task

1. 盲图像调和（Blind Image Harmonization）

定义：传统的图像调和方法通常需要已知前景的mask（即前景区域的掩膜），从而确定不和谐的区域并进行调整。然而，在实际应用中，我们并不总是能够获得精确的前景掩膜，因此盲图像调和就是指在没有前景mask的情况下进行图像调和。
方法：
- Cun 和 Pun（2019）考虑了盲图像调和问题，并提出了一种方法：在注意力模块中预测不和谐的区域mask，然后根据预测的mask分别处理前景和背景。
- 随后，一些工作（如 [103, 104, 212, 211, 247]）专注于不和谐区域定位任务，目标是自动识别图像中前景和背景之间不和谐的区域。
- 例如，Liang 等人（2019）通过聚合多尺度的上下文信息并抑制冗余信息来定位不和谐区域。其他方法则通过颜色映射来放大前景和背景之间的领域差异，从而更容易识别不和谐区域。

2. 艺术风格图像调和（Painterly Image Harmonization）

定义：在标准的图像调和中，前景和背景通常都来自真实的图像。但是，在一些特定应用场景中，背景可能来自艺术作品（如绘画），而前景仍然来自现实图像。在这种情况下，传统的图像调和模型可能无法很好地工作。
问题：背景是艺术风格图像时，调和的目标是将前景（现实图像）调整成适应艺术风格背景的外观，生成一个统一风格的合成图像。艺术风格图像调和更加复杂，因为需要将多个层次的风格（如颜色、简单纹理、复杂纹理）从背景转移到前景，而标准的图像调和只需转移低层次的风格（如光照）。
方法：
- 优化方法：优化输入图像以最小化风格损失和内容损失。例如，**Luan 等人（2017）**提出的优化方法包括两轮优化，第一轮进行粗调和调和，第二轮进行高质量的精细调整。
- 前馈方法：前馈方法直接通过模型生成调和后的结果。例如，**Peng 等人（2018）**使用自适应实例归一化（AdaIn）来匹配前景和艺术背景的特征图的均值和方差。
- 逐步风格转换：**Niu 等人（2020）**提出了一种逐步网络方法，能够从低级风格（如颜色、简单图案）到高级风格（如复杂图案）逐步调整前景。
- 风格级监督：**Niu 等人（2020）**提出了一种风格级监督的方法，通过使用艺术对象和摄影对象的配对，解决了艺术图像和真实图像之间的像素级监督难题。
- 扩散模型的应用：**Lu 等人（2020）**是第一个将扩散模型引入艺术风格图像调和的研究，发现它在背景具有密集纹理或抽象风格时，能够显著优于基于GAN的方法。

D. Related Research Fields

图像调和与风格转移（Style Transfer）密切相关。具体来说，图像调和更接近于照片级风格转移（Photorealistic Style Transfer），而不是艺术风格转移（Artistic Style Transfer）。风格转移的目标是将一个参考图像的风格转移到另一个输入图像上。

图像调和与风格转移的区别：

前景的定位：
- 图像调和需要考虑前景的位置，因为前景是局部的，需要根据背景的光照调整前景的外观。
- 风格转移则是调整整个输入图像的外观，不需要关注前景和背景的具体位置。
风格的定义：
- 风格转移中的“风格”定义并不明确，通常依赖于使用的风格损失函数（如Gram矩阵损失或AdaIn损失）。
- 而图像调和的目标是明确的，即调整前景的光照统计，使前景在背景光照条件下看起来像是同一物体。

E. 数据集和评估指标

数据集构建方法

构建图像调和数据集时，合成图像相对容易通过将前景从一张图像粘贴到另一张背景图像上获得，但要获得与之对应的真实调和图像则比较困难。为了训练深度学习模型，通常需要大量的合成图像和真实调和图像对。现有的研究将数据集构建方法分为以下三类：

前向调整（Forward Adjustment）：
- Jiang 等人（2020）发布了一个小规模的RealHM数据集，包含216对图像，每一对图像都是通过手动调和合成图像来获得的。然而，手动调整前景和背景以获得真实调和图像既耗时又劳动力密集，且不一定可靠。
反向调整（Backward Adjustment）：
- 与手动调整合成图像中的前景不同，反向调整方法通过调整真实图像中的前景来生成合成图像。例如，Cong 等人（2020）发布了iHarmony4数据集，这是第一个大规模的图像调和数据集，包含73,146对合成图像和真实图像。iHarmony4数据集包括四个子数据集，其中三个子数据集（HCOCO、HFlickr、HAdobe5k）是基于反向调整方法构建的。
- 反向调整方法的优点是可以通过自动化的颜色传输（如HCOCO、HFlickr）生成大量合成图像，但这也可能导致合成图像质量较低。因此，Cong 等人手动筛选出低质量的合成图像并进行了过滤。
替换（Replacement）：
- 另一种构建图像调和数据集的自然方式是收集一组在不同光照条件下拍摄的前景图像，然后将一个前景替换为另一个。Transient Attributes Database（[84]）包含101组在不同条件下拍摄的同一场景的图像，这些图像可以用于生成合成图像。
- 另外，也可以通过3D渲染技术，在虚拟环境中变化光照条件，来生成不同的前景和背景组合。Cao 等人（2020）构建了RdHarmony数据集，通过3D渲染技术调整同一场景的光照条件，从而获得不同的合成图像。

E. 数据集和评估指标

数据集构建方法

前向调整（Forward Adjustment）：
- Jiang 等人（2020）发布了一个小规模的RealHM数据集，包含216对图像，每一对图像都是通过手动调和合成图像来获得的。然而，手动调整前景和背景以获得真实调和图像既耗时又劳动力密集，且不一定可靠。
反向调整（Backward Adjustment）：
- 与手动调整合成图像中的前景不同，反向调整方法通过调整真实图像中的前景来生成合成图像。例如，Cong 等人（2020）发布了iHarmony4数据集，这是第一个大规模的图像调和数据集，包含73,146对合成图像和真实图像。iHarmony4数据集包括四个子数据集，其中三个子数据集（HCOCO、HFlickr、HAdobe5k）是基于反向调整方法构建的。
- 反向调整方法的优点是可以通过自动化的颜色传输（如HCOCO、HFlickr）生成大量合成图像，但这也可能导致合成图像质量较低。因此，Cong 等人手动筛选出低质量的合成图像并进行了过滤。
替换（Replacement）：
- 另一种构建图像调和数据集的自然方式是收集一组在不同光照条件下拍摄的前景图像，然后将一个前景替换为另一个。Transient Attributes Database（[84]）包含101组在不同条件下拍摄的同一场景的图像，这些图像可以用于生成合成图像。
- 另外，也可以通过3D渲染技术，在虚拟环境中变化光照条件，来生成不同的前景和背景组合。Cao 等人（2020）构建了RdHarmony数据集，通过3D渲染技术调整同一场景的光照条件，从而获得不同的合成图像。

评估指标

为了评估图像调和结果，现有的方法通常使用以下几种指标：

均方误差（MSE）
峰值信噪比（PSNR）
结构相似度指数（SSIM）【154】
学习感知图像补丁相似性（LPIPS）【245】

这些指标用于计算调和结果与真实调和图像之间的差异，通常会在前景区域内进行计算。此外，一些研究还通过用户研究来评估图像的真实感，询问参与者选择最逼真的图像，并使用B-T分数等度量来评估图像的自然度。

F. 实验

标准图像调和（Standard Image Harmonization）

实验设置：
- 使用iHarmony4数据集，该数据集包含HCOCO、HFlickr、HAdobe5k和Hday2night等子数据集，作为图像调和任务中最常用的数据集。所有方法都在这四个子数据集的训练集上进行训练，并在每个子数据集的测试集上进行评估。
实验结果：
- 结果显示，一些竞争力较强的方法（如DoveNet、RainNet、iSSAM、CDTNet、PCTNet）能够生成视觉上令人满意的图像，并与真实图像非常接近。然而，在背景光照非常复杂或前景和背景的光照统计差异很大的情况下，现有的方法仍然难以将前景和背景调和得完美。
实际应用建议：
- 在常见的光照条件下，建议使用颜色到颜色的转换方法（如 PCTNet），因为它们能够高效处理高分辨率图像，并很好地保持图像细节。
- 对于不常见的光照条件（如霓虹灯等特殊光源），基于扩散模型的方法可能会表现得更好。

艺术风格图像调和（Painterly Image Harmonization）

实验设置：
- 使用COCO数据集和WikiArt数据集，COCO包含80个物体类别的实例分割标注，WikiArt包含来自不同风格的数字艺术绘画。通过将COCO中的摄影前景与WikiArt中的艺术背景组合，生成合成图像。
实验结果：
- DPH、PHDNet、PHDiffusion等方法专门设计用于艺术风格图像调和，能够显著优于其他方法。特别是在背景具有密集纹理或抽象风格时，PHDiffusion由于其扩散模型的生成能力和基础模型中的丰富先验知识，表现出色。
实际应用建议：
- 对于大多数情况，建议使用前馈GAN方法（如PHDNet），因为这些方法能够获得令人满意的结果。
- 在背景具有密集纹理或抽象风格等具有挑战性的场景中，基于扩散的方法（如PHDiffusion）能够发挥其优势。

V. Shadow Generation

图像合成中的阴影生成任务旨在根据背景的光照信息为前景物体生成合理的阴影，使得合成图像更加真实。类似于图像调和任务，阴影生成方法也可以分为基于渲染的方法和非基于渲染的方法。

A. 基于渲染的方法（Rendering-based Methods）

传统的阴影生成方法通常使用渲染技术，这些方法需要收集或估计场景几何、前景物体几何和场景光照信息。以下是一些典型的基于渲染的阴影生成方法：

传统方法：
- 一些传统方法（如 [74, 75, 110, 106]）通过收集用户提供的粗略几何信息和光照信息来使用渲染技术生成前景的阴影。例如，**[74]**提出通过收集粗略的几何和光照信息来渲染前景物体的阴影，但这通常是繁琐且有时不可能获得所有必要信息。
自动估计几何和光照信息：
- 一些研究（如 [75, 110, 106]）尝试自动估计缺失的信息（如场景几何和光照信息）。通过估算这些信息，渲染场景中的局部区域，并通过比较插入前景物体前后的渲染差异，生成前景阴影。
- 近年来，深度学习方法（如 [106, 44, 238, 45]）被应用于基于单张图像的几何和光照估计，相比传统方法，这些方法能取得更好的性能。
挑战：
- 尽管取得了显著的进展，但在复杂的真实场景中，准确估计几何和光照信息仍然非常具有挑战性。错误的估计可能会误导渲染过程，导致不真实的阴影效果【248】。

B. 非基于渲染的方法（Non-rendering-based Methods）

近年来，一些方法将阴影生成看作一个图像到图像的转换任务（image-to-image translation task），并开发了深度学习网络，将没有前景阴影的合成图像转换为包含前景阴影的目标图像。

深度学习方法：
- Zhan 等人（2019）使用自编码器来预测阴影mask，并使用预训练的光照模型（如 [43, 24]）提供光照信息，通过对抗学习（adversarial learning）生成带有前景阴影的图像。
使用成对训练数据：
- 一些方法（如 [248, 69, 111, 62]）使用成对训练数据（包含和不包含前景阴影的图像）来生成更好的阴影效果。例如，**ShadowGAN（2019）**使用条件生成对抗网络（GAN）结合重建损失、局部对抗损失和全局对抗损失来生成前景物体的阴影。
- *Inoue 等人（2019）**开发了一个多任务框架，其中包含两个解码器：一个用于深度图预测，另一个用于环境遮挡图预测。
其他方法：
- ARShadowGAN（2020）提出了一种注意力引导的残差网络，该网络为背景阴影和遮挡物体分别预测两个注意力图，并将其与合成图像和前景物体mask拼接，生成残差阴影图。
- *SGRNet（2020）**设计了一个两阶段的阴影生成网络。第一阶段通过交叉注意力机制预测阴影mask，第二阶段预测阴影参数并将阴影应用到合成图像中。
基于扩散模型的阴影生成：
- SGDiffusion（2022）是首个使用扩散模型进行阴影生成的工作，利用ControlNet架构，结合额外的强度模块来细化阴影强度。
- 其他一些工作（如 [208, 180, 196]）也使用条件扩散模型进行阴影生成，进一步增强了阴影的质量。
- *Zhao 等人（2021）**通过将几何先验（例如阴影位置和形状）注入扩散模型，提升了生成阴影的质量，尤其在复杂形状的阴影生成中表现出色。
与任务不完全匹配的方法：
- 一些阴影生成方法并不专门针对合成图像中的前景阴影生成，但它们可以部分适应这一任务。例如，Mask-ShadowGAN提出了一种同时进行阴影移除和生成阴影的方法，该方法满足循环一致性，可以直接扩展到合成图像的前景阴影生成任务。

总结

基于渲染的方法通常依赖于收集或估计场景几何和光照信息，然后使用渲染技术生成阴影。虽然深度学习方法在这方面有了较大的进展，但在复杂场景中准确估计光照和几何信息仍然是一个挑战。
非基于渲染的方法通过图像到图像的转换，利用深度学习模型直接生成阴影。这些方法不需要复杂的场景信息估计，而是通过训练生成带有阴影的图像，效果在某些场景下非常不错。
目前的阴影生成方法能够为简单场景和光照条件下的合成图像生成合理的阴影，但在复杂场景中，生成的阴影往往缺乏细节，且与前景物体的轮廓匹配不够真实。

C. 图像调和任务的变体（Variants of Image Harmonization Task）

1. 盲图像调和（Blind Image Harmonization）

定义：标准的图像调和方法通常需要已知前景的mask（即前景区域的掩膜），这样可以事先知道哪些区域是不和谐的。然而，在现实应用中，我们往往无法提前获得精确的前景掩膜。因此，盲图像调和就是指在没有前景mask的情况下进行图像调和，自动识别并调整不和谐的区域。
方法：
- Cun 和 Pun（2019）提出了一种方法，通过在注意力模块中预测不和谐的区域mask，然后根据这个预测的mask分别处理前景和背景。
- 随后，一些工作（如 [103, 104, 212]）专注于不和谐区域定位任务，旨在自动定位图像中的不和谐区域。例如，**Liang 等人（2019）**通过聚合多尺度的上下文信息来识别不和谐区域，抑制冗余信息。

2. 艺术风格图像调和（Painterly Image Harmonization）

定义：标准的图像调和通常处理前景和背景都来自真实图像的情况。但在某些应用场景中，背景可能是艺术风格的图像（如绘画），而前景来自现实图像。这时，标准的图像调和模型可能无法处理这种风格差异。因此，艺术风格图像调和就是指将现实图像的前景调整到艺术背景的风格中，使得合成图像看起来在风格上统一。
挑战：
- 艺术风格图像调和比标准图像调和更加复杂，因为需要将背景中的多个层次的风格（例如颜色、简单纹理、复杂纹理）转移到前景上，而标准图像调和只需要调整低层次的风格（如光照）。
- 艺术风格图像调和也被称为跨域图像合成（cross-domain image composition），其挑战性在于要跨越不同风格的图像进行融合。
方法：
- 优化方法：这些方法通过优化输入图像来最小化风格损失和内容损失。例如，**Luan 等人（2017）**提出的优化方法包括两轮优化：第一轮进行粗调，第二轮进行高质量的精细调整。
- 前馈方法：前馈方法直接通过模型生成调和结果，不需要复杂的优化过程。例如，Peng 等人（2018）使用自适应实例归一化（AdaIn）来匹配合成图像和艺术背景之间的特征图的均值和方差。
- 渐进式网络：**Niu 等人（2020）**提出了一种渐进式网络，可以逐步将低级风格（如颜色、简单图案）转换为高级风格（如复杂图案），实现前景和艺术背景的风格转移。
扩散模型的应用：**Lu 等人（2020）**是第一个将扩散模型引入艺术风格图像调和的研究，扩散模型在背景有密集纹理或抽象风格的情况下表现出色，能够显著优于基于GAN的方法。

D. 相关研究领域（Related Research Fields）

图像调和与风格转移（Style Transfer）密切相关，尤其是与**照片级风格转移（Photorealistic Style Transfer）**关系更紧密。

图像调和 vs. 风格转移：图像调和与照片级风格转移有相似之处，但也有显著的区别

位置相关性：图像调和不仅需要调整前景的外观，还需要考虑前景在背景中的位置。前景和背景的局部属性（如光照）需要匹配。相对而言，风格转移通常调整整个输入图像的外观，而不是局部区域。
风格定义：风格转移中的“风格”定义模糊，通常依赖于风格损失函数（如Gram矩阵损失或AdaIn损失）。而图像调和的目标是明确的，即调整前景的光照统计，使得前景看起来像是在背景的光照条件下拍摄的物体。

C. 数据集和评估指标

数据集构建方法

基于渲染的合成数据集：
- 一些研究通过渲染技术构建带有阴影的配对数据集。例如，ARShadowGAN（2020）发布了一个渲染数据集Shadow-AR，其中包含3000个五元组（composite image, ground-truth image, foreground object mask, background object mask, background shadow mask）。该数据集通过插入虚拟前景物体到现实背景图像中生成，并使用渲染技术生成相应的阴影。Shadow-AR数据集中的前景物体来自ShapeNet和Stanford 3D扫描库，但数据集的多样性较低。
- *ShadowGAN（2018）**也使用渲染技术构建了一个数据集，包含9265个前景物体和110种背景纹理。
基于实际图像的数据集：
- DESOBA数据集是通过手动移除阴影的方式构建的。Hong 等人（2021）从SOBA数据集中提取了真实阴影图像，然后手动去除阴影以创建没有阴影的合成图像。尽管这种方法能提供高质量的配对数据，但人工去除阴影的过程非常费时费力。
- 为了减少手动标注的负担，DESOBAv2数据集采用了自动化流程，包括使用预训练的物体-阴影检测模型来预测阴影mask，并使用修补模型来填补阴影区域。
基于渲染和真实图像的混合数据集：
- DESOBA和DESOBAv2等数据集也使用了自动化方法来生成合成图像，但在一些情况下，真实图像的构建仍然非常昂贵和劳动力密集。

评估指标

图像阴影生成任务的评估方法包括：

Frechet Inception Distance (FID)：用于评估生成图像与真实图像的相似度，通常用于没有配对数据的阴影生成任务【232】。
结构相似度指数（SSIM）和均方根误差（RMSE）：这些指标用于有配对数据的任务，评估生成图像与真实图像之间的差异。SSIM和RMSE还可以仅在前景阴影区域内计算，进一步提高评估的精度。
平衡错误率（BER）：用于评估生成阴影的阴影mask质量，通过与真实阴影mask对比进行评估【111】。
用户研究：为了确保生成的阴影符合人的感知，研究还进行用户研究，让参与者选择最真实的图像，并计算B-T分数等度量。

D. 实验

实验设置

比较的方法：
- 研究比较了几种阴影生成方法，包括ShadowGAN、MaskShadowGAN、ARShadowGAN、SGRNet和SGDiffusion。这些方法都在DESOBA和DESOBAv2数据集的训练集上进行训练，并在DESOBA的测试集上进行评估。
实验结果：
- 大多数方法（如 ShadowGAN、MaskShadowGAN、ARShadowGAN）在生成前景物体的阴影时表现不佳，甚至完全没有生成阴影，这表明前景阴影生成是一个非常具有挑战性的任务。
- SGRNet表现相对较好，但生成的阴影形状通常不够真实，并且容易过拟合DESOBA数据集中人工阴影移除造成的伪影。
- SGDiffusion在所有方法中表现最好，能够生成逼真的阴影，尤其是在处理形状复杂的前景物体时，它展示了显著的泛化能力。
实际应用建议：
- 在大多数情况下，使用基础的扩散模型（如SD、FLUX）可以生成更真实的阴影。更先进的基础模型通常能带来更好的性能，尤其在具有挑战性的案例中（如复杂的前景物体或抽象的风格）。

VI. Reflection Generation

A. 基于渲染的方法（Rendering-based Methods）

渲染技术：*Ma 等人（2019）**首先估计了光照信息，然后使用渲染器生成粗略的反射，再通过神经网络对反射进行进一步的细化。这种方法依赖于估计光照信息以及渲染技术来生成前景物体的反射。

B. 非基于渲染的方法（Non-rendering-based Methods）

图像到图像的转换：

一些研究将反射生成视为图像到图像的转换任务，而不需要估计光照或几何信息，也不依赖于渲染器。例如，**[208, 180]**采用条件扩散模型（conditional diffusion model）为插入的前景物体合成反射。
另外，**[31, 32]**的方法聚焦于镜面反射的生成，采用类似的方法进行反射的合成。

C. 数据集和评估指标（Datasets and Evaluation Metrics）

数据集构建：
- 训练条件扩散模型进行反射合成需要配对的训练数据，即没有前景反射的合成图像和具有前景反射的真实图像。
- 合成数据集：一些工作（如 [31, 32]）通过将虚拟物体插入3D场景并使用渲染技术生成镜面反射，来构建带有配对数据的数据集。例如，Dhiman 等人（2020）发布了SynMirror数据集，包含66,068个物体和198,204个渲染图像。
- 手动标注：与阴影生成数据集的构建方法类似，DEROBA数据集通过手动标注物体-反射掩膜，并使用现成的修补模型填补反射区域，从而生成合成图像。
- 真实图像数据集：一些工作（如 [208, 79]）通过拍摄包含物体（真实图像）或不包含物体（对照图像）的照片来构建数据集。然而，这种方法成本高且劳动密集。
评估指标：
- 生成的带有前景反射的合成图像可以使用以下评估指标来衡量与真实图像之间的差异：
  - 均方误差（MSE）
  - 峰值信噪比（PSNR）
  - 结构相似度指数（SSIM）
  - 学习感知图像补丁相似性（LPIPS）
- 此外，还需要进行用户研究，确保生成的反射符合人类感知。参与者被要求选择最逼真的图像，并根据这些选择计算B-T分数等度量。

D. 实验（Experiments）

比较的方法：
- 在实验中，研究比较了不同的反射生成方法，主要基准是ControlNet，它将合成图像和前景掩膜作为输入，通过控制编码器生成图像。基于ControlNet，研究者提出了RGDiffusion，考虑到反射生成任务的特点，进行了扩展。
- RGDiffusion的创新之处在于它通过**交叉注意力（cross-attention）**将裁剪后的前景物体输入到去噪UNet中。反射通常是前景物体的水平或垂直镜像，因此RGDiffusion能够更准确地生成反射，并具有更清晰的细节。
实验结果：
- 实验结果展示了ControlNet和RGDiffusion生成的反射图像，从中可以看出，RGDiffusion在生成反射时，能够更准确地保持反射形状和细节。
实际应用建议：
- RGDiffusion方法在反射生成方面的表现优于传统的ControlNet方法，特别是在反射形状和细节的准确性上。对于实际应用，基于扩散模型的方法（如RGDiffusion）能生成更真实的反射，尤其在复杂场景中展现出较强的泛化能力。

VII. Generative Image Composition

任务描述

生成图像合成旨在通过一个模型直接生成一个真实的合成图像，将前景物体自然且和谐地融合进背景中。与传统方法不同，传统方法往往按顺序处理多个子任务（例如图像融合、阴影生成等），而生成图像合成通过一个统一的模型将多个任务并行执行。

生成图像合成任务与目标引导的图像修复（object-guided image inpainting）和图像定制（image customization）任务有重叠，但它们有明显的区别：

与目标引导的图像修复的区别：
- 目标引导的图像修复通常需要一个mask来指示修复区域，且修复区域的形状通常指示插入物体的目标形状。而生成图像合成期望保留bounding box内的非前景像素，这与目标引导图像修复有所不同。
- 生成图像合成不仅仅生成阴影，还会为前景物体生成反射等效果，且没有bounding box或形状的约束，这也是与目标引导的图像修复的区别。
与图像定制的区别：
- 图像定制是一个广泛的概念，包括改变对象的属性和为特定对象添加背景。生成图像合成可以被视为图像定制的一个特殊案例。

A. 深度学习方法（Deep Learning Methods）

现有的生成图像合成方法可以分为两类：无需训练的方法（Training-free Methods）和基于训练的方法（Training-based Methods）。

无需训练的方法（Training-free Methods）：
- 这一类方法**[56, 121, 201, 96, 219]**使用现成的基础生成模型（例如扩散模型），无需额外的训练或微调。它们通过操控前景和背景元素（如特征、注意力机制）来生成高质量的合成图像，这些模型通常利用去噪过程来生成图像。
基于训练的方法（Training-based Methods）：
- 这一类方法需要进行训练或微调，具体可以分为两类：
  - 第一类方法（[222, 167, 250, 234, 230, 22]）在大量的前景和背景配对图像上训练扩散模型，以便在测试时能够应用于新的前景和背景对。这些方法需要前景对象的几张参考图像作为输入。在测试阶段，如果有几张包含前景物体的图像，也可以对预训练模型进行微调，以获得更好的性能。
  - 第二类方法（[23, 120, 98, 153]）不在大规模数据集上训练模型，而是将目标对象与稀有的token关联，因此必须进行对象特定的微调（即对少量相同前景物体的图像进行训练）。这种方法在应用时需要更多的定制化训练。

方法的详细介绍

第一类方法：
- *PbE（2019）和ObjectStitch（2020）**等先驱工作，通过在大规模图像数据集（如COCO）上构建大量的训练三元组（前景图像、背景图像、真实合成图像），然后将其应用到扩散模型中。在训练阶段，通过对前景图像进行颜色和几何扰动来增强数据集的多样性。
- 在这些方法中，背景图像、bounding box mask和带噪图像作为输入，前景物体通过交叉注意力（cross-attention）机制注入网络中。
- MureObjectStitch（2021）是ObjectStitch的扩展，支持多个前景参考图像。
细节保留增强：
- 一些方法，如Zhang 等人（2020）提出的global-and-local fusion，使用浅层前景特征来增强细节的保留。
- *Chen 等人（2021）**提出提取高频信息以更好地保留图像细节。
基于上下文学习：
- 近年来，受**上下文学习（in-context learning）**启发，几个研究工作（如 [191, 166, 67]）将生成图像合成任务框架与上下文学习相结合。它们将带噪潜在空间、背景图像和前景图像一起输入扩散模型，通过交互生成合成图像。
图像合成控制：
- 一些方法**[234, 230]尝试从不同角度控制图像合成。例如，[230]提供前景物体的目标相机视角，[234]**则可以选择性地调整前景物体的光照和姿态，以匹配背景。
生成阴影与反射：
- 一些方法**[254, 209]**探索在没有bounding box空间约束的情况下为插入的前景物体生成合理的阴影和反射。

1) 两大类方法的划分（核心思想）

第一类（主流、可直接泛化的）：在大规模的前景—背景—真实图像三元组上训练（或预训练）扩散/生成模型，使得模型在测试时可以直接用于新的前景/背景对。模型通常需要把一个或多个“参考前景图”作为输入（可选地在少量目标图像上微调以提升效果）。代表：222,167,250,234,230,22222, 167, 250, 234, 230, 22222,167,250,234,230,22。
第二类（必须做目标专属微调）：模型不是在大规模任务上学习“通用前景”，而是把目标物关联到一个稀有 token/标识上（或其它机制），必须对该目标做少量样本的微调（few-shot finetune）才能让模型“学会”如何生成该物体。代表：23,120,98,15323, 120, 98, 15323,120,98,153。

第一类方法（详解——为什么是主流、如何实现、改进点）

A. 数据与训练样本（triplets）

训练需要大量 三元组：(扰动后的前景，带掩码的背景，真实合成图像)。
三元组构造手段典型做法：
- 从真实图像裁剪前景，然后对前景做颜色/几何扰动（simulate mismatch），把裁剪处填均值或保留背景 -> 得到背景图/ground-truth。
- 使用多视角或视频帧来提供不同视角的前景参考。
这类做法优势是可扩展（在大规模图像库上自动构造），但需要大量数据与计算资源。

B. 模型架构（如何把前景/背景送入扩散模型）

常见方案：把 背景图 + bounding-box mask + noisy image 在通道维度上 concat 作为条件输入；前景参考通过 cross-attention 的方式注入到 U-Net/扩散网络中（即把前景编码成 attention key/value，让生成器“参考”它）。
多参考图支持：ObjectStitch → MureObjectStitch（将多张参考前景融合或用 cross-attention 对多参考做融合），可以利用多张参考来丰富细节与视角信息。

C. 针对“细节保留”的改进（若干代表性技巧）

Global-and-local fusion（Zhang et al. [234]）：同时使用浅层前景特征（保留纹理/高频）和深层语义特征做融合，浅层特征帮助恢复细节。
高频信息提取（Chen et al. [22]）：显式提取并注重高频成分以提升细节呈现（例如边缘、文字等）。
添加—移除循环（Yu et al. [228]）：训练一个 cycle（add object → remove object），两者互为约束，促使模型在插入与去除时都保持一致，进而提高稳定性与细节一致性。

D. 在“in-context learning”框架下的新探索

最近有工作借鉴 in-context learning 思路：把 noisy latent、background、foreground 都作为“上下文”一起给扩散模型，不通过参数微调而利用上下文交互来实现对参考前景的“即时”适配。
具体实现：不同类型的输入加上不同噪声强度，让模型在生成时从这些多源信息中“交互推断”如何合成前景。优点是减少/免去微调，增强灵活性；缺点是对设计的噪声策略、交互模块敏感，需要 careful tuning。

E. 对合成过程的可控性（视角/光照/位置等）

视角控制：一些方法（如 [230]）允许给定目标相机视角，让插入的前景朝向/透视更吻合背景。
照明/姿态调节：如 [234] 能选择性调整前景的照明强度和姿态，使其匹配背景光照与几何。
无 bbox 的自动摆放：有研究 [59,95,254][59,95,254][59,95,254] 目标是不给定边界框也能自动找“合理放置位置”（object placement / plausible location），从而让合成更自动化。
阴影/反射生成（超出 bbox）：传统很多方法只在 bbox 内处理，而 [254,209][254,209][254,209] 等尝试生成跨越 bbox 的阴影/反射，使物体与场景的互动更真实。

F. 优缺点小结（第一类）

优点：可在大规模上学习到通用的合成能力；运行时无需对每个新前景做昂贵微调；支持多参考、可控信号（视角/光照）和逐步改进细节的设计。
缺点：
- 需要大量训练数据（三元组）与计算资源；
- 如果参考前景与背景视角/姿态不匹配，模型仍然可能出现“拼贴感”；
- 对超出 bbox 的阴影/反射仍然是难点；
- 微调仍能带来显著提升（说明模型在零-shot 情况下并非完美）。

第二类方法（必须做对象专属微调）— 机制与利弊

A. 核心机制（“稀有 token + 专属微调”）

思路是把目标物关联到一个稀有的文本 token 或 embedding（即模型的词向量空间中“新建”一个标识），用少量图片（few-shot）对模型进行微调，让该 token 学会代表这个具体物体的外观/结构。
训练后，通过在合成时在文本条件中使用这个稀有 token，就能生成或插入目标物体（典型于文本-条件模型的一类做法）。

B. 优点 / 缺点

优点：可以用少量样本学到非常精确的“物体身份/细节”（适用于想要复现某个具体稀有物体的场景）。
缺点：必须为每个目标做微调（耗时、耗计算），不适合需要在海量不同前景之间快速检索与合成的场景。可扩展性差。

工程实现要点 & 实验注意事项（实践建议）

数据制作：构造高质量三元组是关键（尽量包含不同视角、不同光照、不同尺度）；可用合成扰动（颜色、几何），也可用多视角/视频帧。
前景注入：cross-attention 注入前景特征是当前常用且有效的策略；也可探索 skip-connection 融合浅层特征以保细节。
损失函数：常见组合有重建损失 + 感知损失（perceptual）+ 对抗损失 + 高频/边缘一致性损失。
可控性模块：如果要支持视角/照明控制，需要额外的条件输入（如 target-view 参数或光照编码器）。
阴影/反射：若希望阴影自然延伸到 bbox 之外，需要让模型感知全景背景与光源方向（可能需额外光照估计模块或光流/几何先验）。
评估：除常规 FID/CLIP-score 外，细节保留通常需要专门的定性/定量指标或 user study。

研究趋势与开放问题（总结式）

趋势：从“需要大量数据的训练式”向“in-context / 少样本即用”方向发展；同时追求更强的可控性（视角、光照）与更真实的物体—环境交互（阴影、反射、接触/遮挡）。
开放问题（工程/研究挑战）：如何在不大规模微调的前提下仍保留物体细节？如何自动生成超出 bbox 的物理合理阴影/反射？如何使模型对视角/姿态极端不匹配时也能合理纠正？如何减少对三元组标注/合成数据的依赖？

B. 数据集与评价指标

训练数据的构造方式

训练扩散模型需要大量的三元组数据（前景、背景和真实合成图像）。
- 方法一：从真实图像中裁剪出前景，并对前景做一些扰动（比如颜色迁移、几何变换），这样就得到：
  - 扰动后的前景
  - 被遮罩处理的背景
  - 对应的真实图像
- 方法二：利用多视角数据集或视频数据集，通过从另一角度或视频帧中提取前景，来增加几何变化的多样性。
- 方法三：实际采集同一场景的两张图，一张只有背景，一张有前景物体。但这种方法受限于采集成本，数据规模较小。
评价指标

在真实应用场景中，我们通常没有“前景+背景”的真实合成结果作为“标准答案”，因此不能直接比较生成图像和真实图像的像素差异。常见替代方案包括：
- FID：衡量生成图像分布与真实图像分布之间的差异。
- Quality scores：评估生成图像的真实性（质量打分）。
- CLIP/DINO 分数：衡量生成前景与参考前景的相似度。
- 用户研究（User study）：让人类参与评价生成结果的真实性、自然度、细节等方面。

C. 实验

实验设置
- 数据集：使用 MureCom [120]，它每个前景物体提供 5 张参考图像。
- 方法：对比了 [222, 22, 234, 20, 166]。
  - 部分方法（如 [222, 22, 234, 166]）只能用一张前景参考图 → 需要通过前景搜索方法 [236] 找最匹配的前景图。
  - 方法 [20] 能支持多张前景参考图 → 就直接用全部 5 张，并且在每个前景物体上做微调以提升性能。
  - 模型来源：大部分直接用公开模型（[234] 用 harmonization 模式），只有 [20] 做了额外微调。
结果分析（图 18）
- [222]：能生成合理的视角和姿态，但细节保持得不好。
- [166]：细节保持最好（如蛋糕上的字、垃圾桶的花纹），这可能得益于 in-context learning 的细节保持能力。
- [22, 234, 166]：
  - 容易出现“复制-粘贴”感。
  - 严重依赖参考前景图的合适性。如果参考前景和背景的视角/姿态不匹配，就很难调整。
- 共同缺点：
  - 需要手动指定合理的前景边界框。
  - 阴影/倒影生成不完善，尤其是超出边界框的部分基本做不到 → 所以前景摆放与环境融合（特别是阴影/倒影）还没完全解决。

VIII. Foreground Object Search

Foreground Object Search (FOS，前景对象搜索) 核心就是 如何找到和背景在几何、语义、光照等方面匹配的前景。传统方法依赖手工特征，效果有限；深度学习方法通过判别器或双编码器提升了检索效果，其中 DiscoFOS 引入知识蒸馏进一步提高了性能。

1. 任务目标 (FOS 的定义)

目标：从一个前景库中找到与给定背景匹配的前景物体。

匹配标准包括：
- 光照一致性（illumination）
- 几何一致性（geometry，比如大小、角度、姿态）
- 语义一致性（semantics，比如场景逻辑上合理）
意义：

如果能找到合适的前景，就能大大减轻合成真实感图像的难度，因此 FOS 是图像合成任务的一个重要辅助步骤。
分类：
- Constrained（有约束）：指定前景类别，例如“我要找一只猫”。
- Unconstrained（无约束）：只需要找到匹配背景的前景，不限定类别。

2. 方法

A. 传统方法

早期方法依赖 手工特征（hand-crafted features）。
例子：
- Lalonde et al. [86]：估计前景的大小、方向、光照条件等，并设计匹配标准排序。
- Chen et al. [21]：利用前景-背景之间的 轮廓一致性 和 内容一致性 来匹配。
缺点：手工特征表达能力有限，性能受限。

B. 深度学习方法

引入深度特征后，性能显著提升：
- Tan et al. [172]：用深度特征捕捉局部上下文，特别用于人物合成。
- Zhu et al. [260]：训练一个“合成图像判别器”来评估合成图像的真实性，从而间接衡量前景和背景的匹配程度。但缺点是计算代价高（要生成并判断所有合成图）。
- 主流方法 [253, 254, 261, 213, 90, 236]：
  - 设计两个编码器：一个提取前景特征，一个提取背景特征。
  - 通过特征距离来度量前景-背景的兼容性。
- Zhang et al. [236] (DiscoFOS)：发现判别器比双编码器效果好 → 提出 teacher-student 框架，把判别器的知识蒸馏到前景-背景交互特征中。
不同方法考虑的匹配维度：
- [253, 254]：语义一致性
- [90, 236]：几何一致性 + 语义一致性
- [213, 261]：在此基础上进一步考虑 风格一致性 [213] 或 光照一致性 [261]

3. 数据集与评价指标

数据集

早期方法的数据集没有公开。
Zhang et al. [236] 贡献了两个基准数据集：
- S-FOSD（合成版）
  - 方法：从真实图像中分割出一个前景 → 把它的 bounding box 填充均值 → 得到背景。
  - Ground-truth：原图里的前景就是正确答案。
  - 优点：低成本、可扩展。
  - 缺点：背景不完整，没有真实的负样本。
- R-FOSD（真实版）
  - 方法：从网上收集背景图 → 人工画 bounding box → 前景库来自 S-FOSD 的测试集。
  - 人工标注每个前景-背景对的兼容性。
  - 优点：背景完整，正负样本准确。
  - 缺点：标注成本高，不可扩展。

评价指标

在合成数据集 (S-FOSD)：
- Recall@k (R@k)：背景查询时，Top-k 检索结果里包含真实前景的比例。
在真实数据集 (R-FOSD)：
- mAP (mean Average Precision)
- mAP@20
- Precision@k (P@k)

4. 实验结果

实验：在 S-FOSD 训练集上训练，在 S-FOSD 测试集和 R-FOSD 测试集上测试。
对比方法：CFO [253]、UFO [254]、GALA [261]、FFR [213]、DiscoFOS [236]。
结果（图 20）：
- DiscoFOS [236] 表现最好，能检索出更多与背景兼容的前景。

开放问题 / 挑战（不要糖衣）

多光源 & 全局照明：多数方法只处理简单单光源/局部色彩差异，真实世界有多光源、反射与间接光照（inter-reflection），目前难以完全恢复。
物理一致性：阴影/半影、接触阴影、全局光照一致性、次表面散射等物理现象很难仅靠像素级网络学到。
客观评价缺乏统一标准：主观性强，自动度量很难覆盖所有视觉假象。
跨域（比如遥感）问题：尺度、正射投影、成像噪声和传感器响应都和自然图片不同，直接迁移失败率高。

可以借鉴/跨学科的 SOTA 思路（天马行空 + 实操）

逆向渲染 / 可微渲染（inverse rendering）：先估计环境光照、法线、反照率，再做物理重光照（可显著改善 harmonization 与阴影）；把可微渲染器嵌入训练流程。
条件扩散模型（condition on background + mask + light map）：把 placement + harmonization + shadow 作为条件，让扩散模型在 latent 层学习全局一致性（控制变量用 ControlNet 风格条件）。
用 CLIP / VLM 做语义检验与对抗采样：用 CLIP 分数判断合成后前景与背景的语义契合度，作为筛选或训练信号。
NeRF / 3D-aware compositing：对静态场景，如果有多视角或卫星轨迹，利用 NeRF 风格的 3D 表示做真实的遮挡/阴影/反射推理。
自监督光照合成：用合成渲染器生成大量带多光照的训练对，训练光照估计与重光照网络（domain-adaptation 到真实图像）。
从视频学时间一致性：把方法扩展到视频，采用光流/时间一致性损失来学习稳定的阴影与消融伪影。

针对你做遥感合成的几个具体建议（结合你研究方向）

利用高度/DEM & 正射几何：遥感里可用高程数据或地物高度统计来推断目标尺度和投影，而不是依赖单张图深度估计。
考虑传感器特性：遥感影像有 PSF（点扩散）、噪声模型、多光谱通道（红外等），合成时尽量模拟传感器响应以降低域差。
大尺度与重复纹理问题：遥感背景常有重复结构（跑道、船坞），placement 可依赖纹理/语义图（检测适合放置的位置）。
影像拼接/分辨率一致性：插入对象的分辨率应匹配背景的 GSD（ground sampling distance），必要时对前景做模糊/噪声注入。
阴影在正射图中的表现：正射图上阴影长度受太阳高度角和地物高度影响，可利用太阳角与时间元数据做几何推断。

可落地的小实验/论文级研究路线（三个建议）

混合物理-深度管线（稳妥）：用物理方法估计场景太阳方向 + depth/DEM 用于 placement 和投影阴影；再用小型深度网络做局部 harmonization +边界修复（感知损失 + adversarial）。优点可解释、数据需求低。
条件扩散端到端（前沿）：训练一个条件扩散模型，输入为 (B, F, mask, light_hint)，输出最终合成。结合 discriminator 或 CLIP 做二次筛选。需要大量合成训练对。
语义和尺度感知 placement 模块：用 scene parsing + affordance learning（用 transformer 学习可放置区域）与先验尺度分布联合预测 placement。把这个模块开源做成可复用工具。

最后，几条实操小技巧（工程层面）

在训练时用 混合损失：L1（像素）+ 感知（VGG）+ GAN（细节）+ CLIP（语义一致性）；对阴影单独训练 shadow mask 与 intensity 通道。
数据增强：多样光照/色温/噪声/模糊，对遥感加上大气散射与不同传感器噪声。
做 ablation：逐步加上每个模块（placement、harmonization、shadow），观察哪一步最能提升主观分数。
真实感评估：除了自动指标，做小样本的用户 A/B 测试（5–10 人）通常给的信息最多。