生成型人工智能安全格局：文本生成图像模型的缓解栈指南

原创于 2025-12-14 11:23:02 发布 · 324 阅读

6 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#榛樿鍒嗙被

榛樿鍒嗙被专栏收录该内容

951 篇文章

订阅专栏

原文：towardsdatascience.com/gen-ai-safety-landscape-a-guide-to-the-mitigation-stack-for-text-to-image-models-0848eb613ce5?source=collection_archive---------2-----------------------#2024-10-26

没有“荒野西部”的人工智能：巡礼 T2I 模型的安全组件

https://medium.com/@tbavalatti?source=post_page---byline--0848eb613ce5--------------------------------https://towardsdatascience.com/?source=post_page---byline--0848eb613ce5-------------------------------- Trupti Bavalatti

·发表于 Towards Data Science ·12 分钟阅读·2024 年 10 月 26 日

–

理解文本生成图像 AI 模型的能力与风险

文本生成图像模型（T2I）是根据文本提示描述生成图像的人工智能系统。潜在扩散模型（LDM）正成为生成图像最流行的架构之一。LDM 首先将图像压缩到一个“潜在空间”中，这是一个简化的表示核心信息的压缩空间，用较少的维度表达图像的核心内容，而不包含所有详细的像素数据。该模型从潜在空间中的随机噪声开始，通过称为扩散的过程，在输入文本的引导下逐步将其精炼为清晰的图像。LDM 非常灵活，除了能够生成文本到图像的输出外，还具有如修复功能（inpainting），允许用户通过简单描述所需的更改来编辑现有图像的特定部分。例如，你可以从照片中删除一个物体或无缝地添加新元素，全部通过文本命令完成。

这些能力带来了显著的安全风险，需要谨慎管理。生成的图像可能包含明显或不适当的内容，无论是对明显的提示做出直接响应，还是无意中生成，即使输入提示本身是无害的——例如，要求生成吸烟人的图像可能会错误地生成未成年儿童吸烟的图像。对于图像修复功能，它允许用户通过上传自己的图像来修改图像，这一自由度超越了传统照片编辑工具的速度、规模和效率，虽然使得图像修改更加容易，但也可能带来更大的危险。它可以用来以有害的方式改变图像，例如改变某人的外貌、去除衣物或以宗教敏感的方式修改诸如衣物或食物等上下文元素。

安全缓解堆栈

鉴于图像生成和图像修复能力可能带来的风险，有必要在模型生命周期的不同阶段建立一个强大的安全缓解堆栈。这包括在预训练、微调和训练后阶段实施保护措施，例如对输入提示和生成图像应用安全过滤器，或使用一个多模态分类器，同时评估输入文本和输出图像。

预训练和微调阶段必须纳入伦理考量和偏见缓解措施，以确保基础模型不会延续有害的刻板印象、偏见或生成不适当的内容。一旦经过安全微调的基础模型部署到生产环境中，输入提示分类器至关重要，能够在生成任何图像之前过滤掉明显或有害的请求，从而防止模型处理不安全的输入。同样，输出图像分类器或多模态分类器可以分析生成的图像，检测并标记任何不适当或无意的图像，防止其传递给用户。

这种分层方法确保了整个过程中有多个检查点，大大降低了有害输出的风险，确保图像生成技术得以负责任地使用。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/168f02bffbd7d0778447fe399b6933a9.png

安全缓解堆栈。图像来源：作者

预训练缓解措施

T2I 模型在图像和相应的文字描述对上进行训练。数据对来自于公开可用资源与已授权的资源的组合。

训练数据的缓解措施

T2I 模型是在来自互联网上抓取的亿级图像数据集上进行训练的。研究[1]表明，像 LION-400M 这样的图像-替代文本数据集包含

包括强奸、色情、恶意刻板印象、种族歧视和民族侮辱言辞，以及其他极其有问题的内容的麻烦和明显的图像与文字对。

大多数模型在预训练步骤中都会过滤掉训练数据中的有害内容。DALL·E 2 [2] 特别提到，包含图形性性别和暴力内容以及一些仇恨符号的明确内容已被明确过滤掉。然而，研究表明，过滤掉性内容反而加剧了训练数据中的偏见问题。具体来说，过滤性内容减少了生成女性图像的数量，因为女性图像在过滤掉的性别化图像中占据了不成比例的比例。为了缓解偏见放大问题，采取了几种方法，如使用合成数据生成重新平衡数据集，或重新加权已过滤的数据集，使其分布更好地匹配未过滤图像的分布 [2]。

在这个阶段，考虑隐私缓解措施同样至关重要，以确保用于训练模型的数据中不包含任何个人、敏感或可识别的信息。可以应用几种技术——匿名化可以用来去除或模糊任何个人标识符（姓名、地址、面孔），差分隐私（添加噪声、对个人数据进行子采样以避免过拟合）可以确保个体数据点不能从模型中被逆向工程提取，此外，还可以过滤掉任何包含机密或专有信息的数据。

对基础模型进行安全微调

LDMs 本身已知存在一系列安全问题（偏见、刻板印象等），以及在某些高风险领域缺乏提示对齐的问题。这些是“无意的伤害”，用户提供了一个完全无害的提示，但 LDM 生成了有害的回应。一些例子包括无意的性别化，例如像“为约会穿衣的女人”这样随意的提示可以生成性别化的图像。又如，缺乏提示对齐引发的问题，如下面的例子所示，其中 Midjourney 模型无法为印度男性生成穿着非印度服饰的妻子，而对于白人男性，它则能正确生成不同种族和不同服饰的妻子。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5865bc98cae7979f43cf340934a963a5.png https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0a9c2e8a3bc8ab7c50a5cc97a9c44c89.png https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4b7c3eba4c8256c061938ae653b03a98.png https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ee3b01556fecbc7992e052186e778569.png https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/bb01424d68db4e88462eccfa815d8478.png https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f226c739638a4d5b532d094b9f051c25.png

显示提示不对齐问题的图像。第一排展示了不同种族的印度男性妻子，所有妻子穿着印度服饰，而第二排展示了相同的提示，但对象为白人男性，展示了妻子正确的种族和多样的服饰。这些图像由作者使用 Midjourney 机器人生成

如文献[4]所述，还存在一个较大的风险领域，其中边缘化群体被与有害的内涵相关联，强化了社会上的仇恨性刻板印象。例如，将人口群体与动物或神话生物混淆（例如，将黑人描绘成猴子或其他灵长类动物）、将人类与食物或物品混淆（例如，将残障人士与蔬菜联系在一起），或将某些人口群体与负面的语义概念联系在一起（例如，将恐怖主义与穆斯林人群联系在一起）。

像这些群体和概念之间的有问题关联，反映了关于这些群体的长期负面叙事。如果生成式 AI 模型从现有数据中学习到这些有问题的关联，它可能会在生成的内容中再现这些问题[4]。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a63fde917f76cc99efe8e95e5183ad88.png

边缘化群体与概念的有问题关联。图像来源

有几种方法可以微调 LLMs。根据文献[6]，一种常见的方法叫做监督微调（SFT）。这种方法包括使用一组包含输入和期望输出对的数据集，对预训练的模型进行进一步训练。模型通过学习更好地匹配这些期望的响应来调整其参数。

通常，微调包括两个阶段：SFT（监督微调）用于建立基础模型，随后通过 RLHF（基于人类反馈的强化学习）提升性能。SFT 通过模仿高质量的示范数据，而 RLHF 通过偏好反馈来精细化大语言模型（LLMs）。

RLHF 可以通过两种方式进行：基于奖励的方法或无奖励的方法。在基于奖励的方法中，我们首先使用偏好数据训练一个奖励模型。该模型随后指导像 PPO 这样的在线强化学习算法。无奖励的方法较为简单，直接在偏好或排名数据上训练模型，以了解人类的偏好。在这些无奖励的方法中，DPO 展现了强大的表现，并在社区中获得了广泛的关注。扩散 DPO 可以将模型从有问题的描绘引导到更理想的替代方案。这一过程的难点不在于训练本身，而在于数据的策划。对于每一种风险，我们需要收集数百或数千个提示，对于每个提示，需要有一个理想和一个不理想的图像对。理想的示例应当是该提示的完美描绘，而不理想的示例则应与理想图像相同，但包括我们希望“去除”的风险。

后训练缓解措施

这些缓解措施是在模型完成并部署到生产环境后应用的。这些措施涵盖了对用户输入提示和最终图像输出的所有防范措施。

提示过滤

当用户输入文本提示以生成图像，或上传图像使用修补技术进行修改时，可以应用过滤器来阻止请求明确要求有害内容的请求。在此阶段，我们处理用户明确提供有害提示的情况，比如“显示一个人杀另一个人”的提示，或者上传图像并要求“去掉这个人的衣服”等等。

为了检测有害请求并进行阻止，我们可以使用基于简单黑名单的关键词匹配方法，阻止所有包含有害关键词（比如“自杀”）的提示。然而，这种方法是脆弱的，可能会产生大量的假阳性和假阴性结果。任何模糊化机制（例如，用户查询“suicid3”而不是“自杀”）都会绕过这种方法。相反，可以使用基于嵌入的 CNN 过滤器来进行有害模式识别，通过将用户提示转换为捕捉文本语义的嵌入向量，然后使用分类器来检测这些嵌入中的有害模式。然而，已经证明，LLM 在提示中的有害模式识别上表现更好，因为它们擅长理解上下文、细微差别和意图，而像 CNN 这样的简单模型可能难以处理。它们提供了一种更具上下文感知的过滤解决方案，并且能比基于固定嵌入的模型更有效地适应不断发展的语言模式、俚语、模糊化技术以及新兴的有害内容。LLM 可以根据您的组织定义的任何政策指南进行训练，以屏蔽有害内容。除了像性别暴力、暴力行为、自伤等有害内容外，它还可以训练用于识别并屏蔽生成公众人物或选举相关虚假信息图像的请求。要在生产环境中使用基于 LLM 的解决方案，您需要优化延迟并承担推理成本。

提示操作

在将原始用户提示传递给模型进行图像生成之前，可以进行一些提示操作，以增强提示的安全性。以下列出了一些案例研究：

提示增强以减少刻板印象：LDMs 扩大了危险和复杂的刻板印象[5]。各种普通提示都会产生刻板印象，包括简单提及特征、描述、职业或物体的提示。例如，提示一些基本特征或社会角色会导致强化白人至上的观念，或者提示职业会导致性别和种族差距的放大。通过对用户提示进行提示工程，增加性别和种族多样性是一个有效的解决方案。例如，“首席执行官的图像” -> “首席执行官的图像，亚洲女性”或“首席执行官的图像，黑人男性”可以产生更具多样性的结果。这也有助于减少有害的刻板印象，比如将提示“犯罪分子图像”变为“犯罪分子图像，橄榄色肤色”，因为原始提示最有可能产生一名黑人男性图像。

提示匿名化以保护隐私：此阶段还可以应用额外的缓解措施来匿名化或过滤掉提示中请求特定个人隐私信息的内容。例如，“John Doe 在<某地址>淋浴的图像” -> “某人淋浴的图像”

提示重写和基准化以将有害提示转化为无害：可以通过重写或基准化（通常使用微调的 LLM）来将有问题的场景以正面或中立的方式重新框架。例如，“展示一个懒惰的[某族群]人打盹” -> “展示一个人在下午休息”。定义一个明确的提示，或通常所说的“基准化生成”，能够使模型在生成场景时更严格地遵循指令，从而减轻某些潜在和未基准化的偏见。“展示两个人玩得很开心”（这可能导致不当或有风险的解释）-> “展示两个人在餐厅用餐”。

输出图像分类器

可以部署图像分类器来检测模型生成的图像是否有害，并在返回给用户之前进行阻止。像这样的独立图像分类器对于阻止明显有害的图像（如展示暴力或性内容、裸露等）非常有效。然而，对于基于图像修复的应用程序，用户上传输入图像（例如，白人图像）并提供有害提示（“给他们化黑脸”）以不安全的方式转换它时，仅仅查看输出图像的分类器将无法有效工作，因为它们失去了“转化”本身的上下文。对于这样的应用，能够同时考虑输入图像、提示和输出图像的多模态分类器，来判断从输入到输出的转换是否安全，效果非常好。这样的分类器还可以训练识别“非预期的转化”，例如，上传一个女性的图像并提示“让她们变美”，结果生成了一幅瘦弱、金发、白人的女性图像。

再生而非拒绝

与其拒绝输出图像，像 DALL·E 3 这样的模型使用分类器引导来改善未经请求的内容。基于分类器引导的定制算法被部署，工作原理在[3]中有描述—

当图像输出分类器检测到有害图像时，提示会带有特殊标志重新提交给 DALL·E 3。这个标志触发扩散采样过程，使用有害内容分类器对可能触发它的图像进行采样。

基本上，这个算法可以“推动”扩散模型朝着更合适的生成方向发展。这可以在提示层和图像分类器层面同时进行。

在生产环境中，通常会实施几个额外的安全措施，例如对 AI 生成的图像进行水印标记，以追溯内容的来源并跟踪滥用行为。这些措施还包括全面的监控和报告系统，供用户报告事件，从而迅速解决实时问题。严重违规行为可能会披露给政府机关（如 NCMEC），并执行对政策违规的惩罚措施，包括禁用账户，以阻止高风险用户。此外，应用层的速率限制有助于防止自动化或脚本攻击。

风险发现与评估

除了实际的缓解措施外，还有两个重要方面需要考虑以确保安全。其中之一是红队测试，即团队积极寻找 AI 模型中的弱点、漏洞或不可预见的风险。红队测试模拟现实世界的攻击和新兴风险，既可以通过专家红队成员手动执行，他们来自不同的社会经济、教育和文化背景，也可以通过可扩展的自动化系统来执行，这些系统被训练成“模拟攻击”。另一个方面是基准测试（或评估），即模型通过一套标准化的测试或指标来评估其在预定义领域的表现，如检测有害内容、处理偏见或保持公平性。虽然红队测试通常能揭示基准测试可能遗漏的漏洞，从而对发现未知风险至关重要，但基准测试提供一致的、可重复的评估，并帮助根据既定标准比较模型，但可能无法暴露基准测试范围之外的新风险或漏洞。这两个方面对于评估 AI 系统的安全性至关重要，但在范围和方法上有所不同。

下面是一个时间线示例，展示了可以进行红队测试或评估的各个阶段。至少，在训练好的基础模型准备好后，应该进行一次红队测试，以评估模型中隐含的风险。通常，你会发现模型能够对无害的提示生成有害输出。在这些隐性风险在微调阶段得到缓解后，你将进行全面评估，以识别任何缺口并进一步改进模型，直到最终定型投入生产。最后，一旦模型部署到生产环境中，你将对整个端到端系统进行红队测试，评估在当前设置下未覆盖的剩余风险，并记录下来以便通过快速热修复或更稳健的长期策略解决。在这个阶段，你还可以进行基准测试，以确保你的应用程序在真实用户使用前符合所有安全性、公平性和性能标准，并能够将这些指标报告给外部。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d2cf1c9b4c3c0c3ec492e7076650a45e.png

安全栈中的红队测试和评估。图像来源：作者

虽然这只是一个最低标准指南，但红队测试和评估可以在整个技术栈中多次进行，甚至在单个组件上进行（例如，仅在提示分类器、图像分类器或重写器上）以确保最终组件具有高精度和高召回率。

总之，通过在模型生命周期的各个阶段实施全面的安全防护——从预训练到后训练，开发者不仅可以减少 AI 模型生成有害或偏见内容的风险，还可以防止这些内容暴露给最终用户。此外，在生命周期中的持续实践，如红队测试和基准测试，对于发现和评估漏洞至关重要，确保 AI 系统在真实应用中能够安全、公平且负责任地运作。