使用多模态毒性检测功能，违规图片无所遁形

亚马逊云开发者

于 2025-03-28 11:02:03 发布

阅读量73

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg4NjU5NDUxNg==&mid=2247594919&idx=2&sn=5c40ad4362804647e91169648152cb09&chksm=cee5b6aaa7bbc4621d36b77df9d5325d269b223c4027370b557a690eeb2dc90cf7ebc3a052f1&scene=126&sessionid=0

版权

亚马逊云科技在Amazon Bedrock Guardrails中推出支持图像的多模态毒性检测功能（预览版），该功能除了检测文本外，还能检测和过滤不良图像内容，帮助您提升用户体验，并更好管理生成式AI应用中的模型输出。

Amazon Bedrock Guardrails可过滤不良内容、编辑个人身份信息（PII）以及增强内容安全性和隐私性，从而帮助您为生成式AI应用程序实施保障措施。您可以配置拒绝主题、内容过滤器、词语过滤器、PII编辑、上下文相关性检查和自动推理检查（预览版），以便根据特定用例和负责任的AI策略定制保障措施。

随着支持图像的多模态毒性检测功能的推出，您现在可以使用Amazon Bedrock Guardrails中的现有内容过滤策略，来检测和屏蔽仇恨、侮辱、色情和暴力等各类有害图片内容。您可以根据应用程序的需求，配置从低到高的阈值。

这项新的图像支持功能，可与Amazon Bedrock中所有支持图像数据的基础模型（FMs）以及用户自有的任何自定义微调模型兼容。它为文本和图像模式提供了一致的保护层，使得构建负责任的AI应用变得更加容易。

KONE公司副总裁、战略合作部负责人Tero Hottinen，设想了以下应用场景。

在持续评估过程中，KONE公司认识到Amazon Bedrock Guardrails作为保护生成式AI应用的关键组件的潜力，尤其是在相关性和上下文基础检查以及多模态防护方面。KONE设想将其产品设计图和手册集成到其应用程序中，而Amazon Bedrock Guardrails将在实现更精确的多模态内容诊断和分析方面，发挥至关重要的作用。

本文将介绍其工作原理。

多模式毒性检测功能实际应用

要开始使用，请在亚马逊云科技管理控制台中创建防护，并为文本数据、图像数据或两者配置内容过滤器，您还可以使用Amazon SDK将此功能集成到您的应用程序中。

亚马逊云科技管理控制台：

https://aws.amazon.com/console/

Amazon SDK：

https://aws.amazon.com/developer/tools/

创建防护

在控制台中，导航到Amazon Bedrock并选择“Guardrails”，您可以在此创建新的防护，并使用现有的内容过滤器来检测并屏蔽文本数据之外的图像数据。

在“配置内容过滤器”部分，您可以针对仇恨、侮辱、色情和暴力等类别，配置为针对文本、图像进行过滤，或者针对两者都进行过滤，而对于不当行为和提示攻击这两类问题，目前仅支持配置为针对文本内容进行过滤。

选择并配置好需要使用的内容过滤器后，您可以保存防护，并开始用其构建安全、负责任的生成式AI应用程序。

要在控制台中测试新的防护，请选择该防护并选择“测试”，您有两个测试选项：

选择并调用模型来测试防护。
无需调用模型，只需使用Amazon Bedrock Guardrails独立的ApplyGuardrail API来测试防护。

使用ApplyGuardrail API，您可以在应用程序流程的任意节点验证内容，然后再进行处理或向用户提供服务结果。您还可以使用该API来评估任何自管理（自定义）或第三方FM的输入和输出，而无需考虑其底层基础设施。例如，您可以使用该API来评估托管在Amazon SageMaker上的Meta Llama 3.2模型，或在您的笔记本电脑上运行的Mistral NeMo模型。

选择并调用模型测试防护

选择一个支持图像输入或输出的模型，例如Anthropic的Claude 3.5 Sonnet，确认其是否已为图像内容启用提示和响应过滤器。然后提供提示、上传图像文件，并选择“运行”。

在本例中，Amazon Bedrock Guardrails进行了干预，可选择“查看追踪”了解详细信息。

防护追踪记录了交互过程中安全措施的应用情况，它显示了Amazon Bedrock Guardrails是否进行了干预，以及对输入（提示）和输出（模型响应）进行了哪些评估。本例中内容过滤器屏蔽了输入提示，因为它们以高置信度检测到图像中包含侮辱性内容。

无需调用模型测试防护

在控制台中，选择“使用独立于API的防护”，以在不调用模型的情况下测试防护。选择验证输入提示或者模型生成的输出示例，然后重复之前步骤。确认是否已为图像内容启用提示和响应过滤器，提供要验证的内容，并选择“运行”。

本例在演示中使用了相同的图像和输入提示，Amazon Bedrock Guardrails再次进行了干预。再次选择“查看追踪”，了解详细信息。

现已可用

支持图像的多模态毒性检测功能现已在Amazon Bedrock Guardrails中以预览版形式提供，可用区域包括美国东部（北弗吉尼亚州、俄亥俄州）、美国西部（俄勒冈州）、亚太地区（孟买、首尔、新加坡、东京）、欧洲（法兰克福、爱尔兰、伦敦）以及Amazon GovCloud（美国西部）等亚马逊云科技区域。更多信息，请参阅Amazon Bedrock Guardrails产品页面。

您可在Amazon Bedrock控制台中，立即试用多模态毒性检测内容过滤器。

亚马逊云科技区域列表：

https://docs.aws.amazon.com/glossary/latest/reference/glos-chap.html#region

Amazon Bedrock Guardrails产品页面：

https://aws.amazon.com/bedrock/guardrails/

Amazon Bedrock控制台：

https://console.aws.amazon.com/bedrock/home#/guardrails

本篇作者