Farm3D- Learning Articulated 3D Animals by Distilling 2D Diffusion论文笔记

本文链接：https://blog.youkuaiyun.com/Imbuh/article/details/134697304

Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion

1. Introduction

最近的研究DreamFusion表明，可以通过text-image generator提取高质量的三维模型，尽管该生成模型并未经过三维训练，但它仍然包含足够的信息以恢复三维形状。

在本文中，展示了通过文本-图像生成模型可以获取更多信息，并获得关节模型化的三维对象类别。也就是说，我们的目标不是提取单个的三维单元（DreamFusion），而是一个整个关节三维对象类别的统计模型（例如：牛，羊，马），能够通过单个图像（真实或合成）重建一个可动的三维单元，可以轻松应用于增强现实/虚拟现实，游戏和内容创作。

方法：学习一个网络，给定一个对象的单个图像，预测相应的关节三维模型。

以前~~使用真实数据集~~来学习重建网络，建议使用从2D扩散模型（如 Stable Diffusion）生成的虚拟数据

优点：

（1）2D图像生成器倾向于产生与对象类别相关的逼真且干净的样本，隐式地筛选训练数据并简化学习过程。

（2）2D生成器通过蒸馏隐式地提供了任何给定对象实例的虚拟视图，进一步消除了学习的不确定性。

（3）它使方法更加灵活，避免了收集(并潜在地筛选)真实数据的需要。

方法被称为Farm3D，与生成单个三维单元的方法如DreamFusion 、RealFusion 和Make-a-video-3D 相互补充，这些方法通过测试时的优化从文本或图像生成一个静态或动态的三维单元。

本文的两个技术贡献：

（1）通过提示工程，可以诱导稳定扩散生成一个对象类别的相对干净的大型训练集，用于学习铰接式3D模型。我们表明，这些图像可用于引导MagicPony

（2）分数蒸馏抽样（SDS）损失可以扩展以获得合成的多视图监督，以训练照片几何自动编码器，在我们的例子中是MagicPony。由于照片几何自动编码器将对象分解为图像形成的不同因素（即铰接形状、外观、相机视点和照明），它允许我们对其中一些因素（例如视点和照明）进行重新采样，以生成同一物体的新合成视图。这些合成的然后将视图馈送到SDS（Score Distillation Sampling）损失中以接收梯度更新，该梯度更新反向传播到自动编码器的可学习参数。

2. Related Work（全翻译）

弱监督的3D对象学习。 虽然传统上重建可变形的3D对象需要同时进行多视角捕捉，但近期的一些研究已经证明，仅从单视角图像集合中，就可以学习到可变形对象的3D模型，除了分割掩码外，还需要一些形式的几何监督，如关键点注释，特定类别的模板形状，从图像特征中提取的语义对应关系，和/或强假设如对称性。另外，如果已知先验视点分布，也可以使用生成对抗框架来学习更简单的3D对象，如面部和汽车。研究人员还利用单目视频作为训练数据，利用额外的时间信号进行学习。尽管已经展示了令人印象深刻的结果，但其中许多仍然依赖于精心策划的特定类别数据进行训练，限制了模型只能适用于少数几个类别。在这里，我们介绍了一种从大型2D扩散模型中提取3D对象的方法，这种方法可能适用于广泛的对象类别。

扩散模型。 近年来，扩散模型如雨后春笋般涌现，它们已经成为新一代文本到X生成模型的基石，其中X可以是图像，视频，矢量图，音频等。特别是，这些模型可以通过学习逆扩散过程，即逐渐去除合成添加的噪声，直到图像恢复，来生成复杂的高保真样本。文本到图像的扩散模型特别引入了文本条件，为这些生成模型提供了一个强大的接口，用于通用的可控图像生成。尽管这些模型已经展示了一定程度的组合性和可控性，但这些学习的图像合成模型中编码了何种类型的3D信息，这一点尚不清楚。

从图像扩散模型中提取3D模型。 最近的一些工作开始探索从大型预训练的2D图像扩散模型中提取3D信息。特别是，DreamFusion和Magic3D已经展示了通过提示预训练的图像扩散模型，从文本查询中生成多样化的完整3D模型的可能性。Make-A-Video3D采用了类似的策略来生成4D动态场景，而RealFusion则将流程扩展到在真实照片中重建3D对象。

我们的方法与这些方法的不同之处在于，我们学习了一个有关节的类别级模型。这有几个优点。首先，它在单次前向传播中预测3D形状，消除了其他方法所需的长时间优化的需要。其次，类别级模型使我们能够直接关联同一类别内对象表面上语义对应的点，这使得我们能够进行许多应用，如纹理交换（将纹理条件化在另一个输入图像上）和图像理解。第三，我们的方法学习了有关节的形状，提供了更大的控制形状生成的能力，可以用于动画。
在这里插入图片描述

3. Method

模型基于最近的MagicPony框架，该框架也作为实验中的基线（第3.1节）。MagicPony旨在从真实图像集合中学习有关节的3D对象；在这里，我们展示了如何将其扩展到使用虚拟训练数据，替换真实数据。我们通过生成虚拟图像样本进行提示（第3.2节），并修改MagicPony的训练目标，将2D扩散模型作为评论者（第3.3节）

3.1 铰链类别模型

使用的MagicPony模型（下面的描述总结了模型的设计）
在这里插入图片描述

模型fθ接收一个单独的RGB图像 $I∈R^{3×H×W}$ 作为输入，并输出一组描述图像中包含的对象的照片-几何参数 $s, a, v, l) = f_{θ}(I)$ ，其中 $θ$ 是模型参数。在这里， $s$ 是对象形状（考虑到类别级先验形状，实例特定的变形，和图像特定的骨骼关节）， $a$ 是外观（考虑到反照率和漫反射和环境强度）， $v \in SE (3)$ 是对象视点（表示为相对于相机的旋转和平移）， $l \in S 2$ 是照明的主要方向。

照片-几何编码器 $f_{θ}$ 与渲染函数 $I^=R(s,a,v,l)\hat{I} = R(s, a, v, l)$ 配对，该函数复制了对象的图像。该方法的关键在于， $R$ 是一个手工制作的（未学习的）可微分的渲染器，它隐式地为 $s, a, v, l$ 分配了照片-几何含义。

MagicPony从单目图像和视频的单个帧的集合中学习，但假设一个策划过程，该过程将图像裁剪到感兴趣的对象周围，并排除被遮挡和截断的实例。它还假设一个分割器来获取对象掩码 $M∈{0, 1}^{H×W}$ ，例如PointRend。给定训练对 $(I, M)$ 的结果数据集 $D$ 。

MagicPony最小化了目标：

$\mathcal{L}(\theta \mid \mathcal{D})=\frac{1}{|\mathcal{D}|} \sum_{(I, M) \in \mathcal{D}} \mathcal{L}\left(f_{\theta}(I) \mid I, M\right)+\mathcal{R}\left(f_{\theta}(I)\right)$

其中 $L(fθ(I)∣I,M)\mathcal{L}\left(f_{\theta}(I) \mid I, M\right)$ 检查预测的对象模型如何重建输入图像I，输入掩码 $M$ ，和ViT-DINO特征 $Φ (I)$ ，而正则化器 $R(fθ(I))\mathcal{R}\left(f_{\theta}(I)\right)$ 正则化了先验形状（SDF的Eikonal损失），并缩小了实例特定变形和关节的数量。

3.2 通过提示生成训练图像

在以往的研究中，训练数据主要由经过简单筛选的真实图像组成。但在这里，我们提出了一个新的想法，即用完全虚拟的目标对象类别图像来替换这些真实图像，这些虚拟图像是由一个现成的图像生成器生成的。我们通过给定特定的文本提示，来驱动这个Stable Diffusion模型，一个高质量的2D扩散模型，生成我们需要的图像。所有的训练数据都是使用同样的提示生成的，唯一的变化就是对象的类别名称。

当简单地提示一个物体类别的图像时，例如“牛”，Stable Diffusion会产生物体的正面和侧面视图。我们假设这是由于其训练数据中包含的偏差造成的。我们发现，单纯依赖于视图的提示{side, front, back}在Stable Diffusion中不能很好地工作。相反，我们发现，对于一个动物类别“从相机走开”的提示，足以使生成有足够的偏差，以获得具有多样化视角覆盖的图像。

Stable Diffusion的结构形式 使用了一个自动编码器，它可以将图像映射到一个潜在的编码空间 $z_{0} = h(I) ∈ R^{D'×H_{h}×W_{h}}$