探索在生成扩散模型中基于RAG增强生成的实现与未来

概述

像 Stable Diffusion、Flux 这样的生成扩散模型，以及 Hunyuan 等视频模型，都依赖于在单一、资源密集型的训练过程中通过固定数据集获取的知识。任何在训练之后引入的概念——被称为知识截止——除非通过微调或外部适应技术（如低秩适应，LoRA）进行补充，否则不会出现在模型中。

因此，如果一个生成系统能够输出图像或视频，并且能够根据需要从在线资源中获取信息并将其纳入生成过程，那就再好不过了。例如，一个对最新苹果或特斯拉产品一无所知的扩散模型，仍然可以生成包含这些新产品的图像。

在语言模型方面，我们大多数人都熟悉像 Perplexity、Notebook LM 和 ChatGPT-4o 这样的系统，它们可以在检索增强生成（RAG）模型中纳入新的外部信息。

然而，在生成图像方面，这种功能并不常见，ChatGPT 也会承认自己在这方面的局限性：

ChatGPT 4o 根据一般线条和它所解释的描述，对一款全新手表的外观做出了合理猜测；但它无法“吸收”并将新图像整合到基于 DALL-E 的生成中。

将检索到的外部数据纳入生成图像是具有挑战性的，因为传入的图像必须首先被分解为标记和嵌入，然后映射到模型对主题的最近训练知识领域。

尽管这一过程对于像 ControlNet 这样的后训练工具来说效果良好，但此类操作大多停留在表面，本质上是将检索到的图像通过渲染管道传递，而没有将其深度整合到模型的内部表示中。

因此，模型缺乏像 NeRF 这样的神经渲染系统的能力，后者能够以真正的空间和结构理解构建场景。

一、成熟的逻辑

类似的限制也适用于大型语言模型（LLMs）中的 RAG 基查询，例如 Perplexity。当这种类型的模型处理检索到的外部数据时，其功能类似于一个成年人凭借一生的知识来推断某个主题的概率。

然而，就像一个人无法将新信息追溯性地整合到塑造其基本世界观的认知框架中——当他们的偏见和先入为主的观念仍在形成时——LLM 也无法将其新知识无缝地整合到其预训练结构中。

相反，它只能“影响”或并置新数据与其现有的内化知识，使用已学到的原则进行分析和推测，而不是在基础层面上进行综合。

在“并置”和“内化”生成之间的等效性不足，可能会在生成的图像中比基于语言的生成中更为明显：各种研究表明，“原生”（而非基于 RAG）生成的更深层次网络连接和更高的创造力已被建立。

二、RAG 能力图像生成的隐藏风险

即使在技术上可行地将检索到的互联网图像无缝整合到新合成的图像中，以 RAG 风格进行整合，安全相关的限制也会带来额外的挑战。

许多用于训练生成模型的数据集已经被策划，以尽量减少明确、种族主义或暴力内容等敏感类别的存在。然而，这一过程并不完美，残留的关联可能仍然存在。为了缓解这种情况，像 DALL·E 和 Adobe Firefly 这样的系统依赖于二级过滤机制，对输入提示和生成的输出进行筛查，以禁止相关内容。

因此，一个简单的 NSFW 过滤器——主要阻断明显露骨的内容——将不足以评估检索到的基于 RAG 的数据的可接受性。此类内容仍可能以超出模型预定义的审核参数范围的方式具有冒犯性或有害性，可能会引入 AI 缺乏适当评估情境意识的材料。

最近发现的 CCP 旗下的 DeepSeek 的一个漏洞，旨在压制对禁止政治内容的讨论，突显了如何利用替代输入路径绕过模型的伦理保障；可以说，这也适用于从互联网检索到的任意新数据，当它被纳入新的图像生成时。

三、 RAG 用于图像生成

尽管存在这些挑战和棘手的政治方面的问题，但仍有一些项目试图使用基于 RAG 的方法将新数据纳入视觉生成中。

3.1 ReDi

2023 年的检索式扩散（ReDi）项目是一个无学习框架，通过从预计算的知识库中检索类似的轨迹来加速扩散模型推理。

数据集中的值可以在 ReDi 中“借用”用于新的生成

在扩散模型的背景下，轨迹是模型从纯噪声生成图像的逐步路径。通常，这个过程会逐渐发生，每一步都会稍微完善图像。

ReDi 通过跳过其中许多步骤来加速这一过程。它不是计算每一个步骤，而是从数据库中检索一个类似的过去轨迹，并跳到过程中的一个更晚的点。这减少了所需的计算量，使基于扩散的图像生成速度更快，同时仍然保持高质量。

ReDi 并不修改扩散模型的权重，而是使用知识库跳过中间步骤，从而减少采样所需的函数估计数量。

当然，这并不等同于随意将特定图像纳入生成请求中；但它确实与类似类型的生成有关。

ReDi 于 2022 年发布，那一年潜扩散模型吸引了公众的想象力，ReDi 似乎是最早采用基于 RAG 方法的扩散基础方法之一。

尽管应该提到的是，2021 年 Facebook Research 发布了实例条件 GAN，它试图将 GAN 图像条件化为新的图像输入，这种将图像投影到潜在空间的做法在文献中非常常见，无论是对于 GAN 还是扩散模型；挑战在于使这样一个过程成为训练自由的，并在实时中发挥作用，就像专注于 LLM 的 RAG 方法一样。