使用多模态毒性检测功能,违规图片无所遁形

亚马逊云科技在Amazon Bedrock Guardrails中推出支持图像的多模态毒性检测功能(预览版),该功能除了检测文本外,还能检测和过滤不良图像内容,帮助您提升用户体验,并更好管理生成式AI应用中的模型输出。

Amazon Bedrock Guardrails可过滤不良内容、编辑个人身份信息(PII)以及增强内容安全性和隐私性,从而帮助您为生成式AI应用程序实施保障措施。您可以配置拒绝主题、内容过滤器、词语过滤器、PII编辑、上下文相关性检查和自动推理检查(预览版),以便根据特定用例和负责任的AI策略定制保障措施。

随着支持图像的多模态毒性检测功能的推出,您现在可以使用Amazon Bedrock Guardrails中的现有内容过滤策略,来检测和屏蔽仇恨、侮辱、色情和暴力等各类有害图片内容。您可以根据应用程序的需求,配置从低到高的阈值。

这项新的图像支持功能,可与Amazon Bedrock中所有支持图像数据的基础模型(FMs)以及用户自有的任何自定义微调模型兼容。它为文本和图像模式提供了一致的保护层,使得构建负责任的AI应用变得更加容易。

KONE公司副总裁、战略合作部负责人Tero Hottinen,设想了以下应用场景。

在持续评估过程中,KONE公司认识到Amazon Bedrock Guardrails作为保护生成式AI应用的关键组件的潜力,尤其是在相关性和上下文基础检查以及多模态防护方面。KONE设想将其产品设计图和手册集成到其应用程序中,而Amazon Bedrock Guardrails将在实现更精确的多模态内容诊断和分析方面,发挥至关重要的作用。

本文将介绍其工作原理。

多模式毒性检测功能实际应用

要开始使用,请在亚马逊云科技管理控制台中创建防护,并为文本数据、图像数据或两者配置内容过滤器,您还可以使用Amazon SDK将此功能集成到您的应用程序中。

亚马逊云科技管理控制台:

https://aws.amazon.com/console/

Amazon SDK:

https://aws.amazon.com/developer/tools/

创建防护

在控制台中,导航到Amazon Bedrock并选择“Guardrails”,您可以在此创建新的防护,并使用现有的内容过滤器来检测并屏蔽文本数据之外的图像数据。

在“配置内容过滤器”部分,您可以针对仇恨、侮辱、色情和暴力等类别,配置为针对文本、图像进行过滤,或者针对两者都进行过滤,而对于不当行为和提示攻击这两类问题,目前仅支持配置为针对文本内容进行过滤。

选择并配置好需要使用的内容过滤器后,您可以保存防护,并开始用其构建安全、负责任的生成式AI应用程序。

要在控制台中测试新的防护,请选择该防护并选择“测试”,您有两个测试选项:

  1. 选择并调用模型来测试防护。

  2. 无需调用模型,只需使用Amazon Bedrock Guardrails独立的ApplyGuardrail API来测试防护。

使用ApplyGuardrail API,您可以在应用程序流程的任意节点验证内容,然后再进行处理或向用户提供服务结果。您还可以使用该API来评估任何自管理(自定义)或第三方FM的输入和输出,而无需考虑其底层基础设施。例如,您可以使用该API来评估托管在Amazon SageMaker上的Meta Llama 3.2模型,或在您的笔记本电脑上运行的Mistral NeMo模型。

1

选择并调用模型测试防护

选择一个支持图像输入或输出的模型,例如Anthropic的Claude 3.5 Sonnet,确认其是否已为图像内容启用提示和响应过滤器。然后提供提示、上传图像文件,并选择“运行”。

在本例中,Amazon Bedrock Guardrails进行了干预,可选择“查看追踪”了解详细信息。

防护追踪记录了交互过程中安全措施的应用情况,它显示了Amazon Bedrock Guardrails是否进行了干预,以及对输入(提示)和输出(模型响应)进行了哪些评估。本例中内容过滤器屏蔽了输入提示,因为它们以高置信度检测到图像中包含侮辱性内容。

2

无需调用模型测试防护

在控制台中,选择“使用独立于API的防护”,以在不调用模型的情况下测试防护。选择验证输入提示或者模型生成的输出示例,然后重复之前步骤。确认是否已为图像内容启用提示和响应过滤器,提供要验证的内容,并选择“运行”。

本例在演示中使用了相同的图像和输入提示,Amazon Bedrock Guardrails再次进行了干预。再次选择“查看追踪”,了解详细信息。

现已可用

支持图像的多模态毒性检测功能现已在Amazon Bedrock Guardrails中以预览版形式提供,可用区域包括美国东部(北弗吉尼亚州、俄亥俄州)、美国西部(俄勒冈州)、亚太地区(孟买、首尔、新加坡、东京)、欧洲(法兰克福、爱尔兰、伦敦)以及Amazon GovCloud(美国西部)等亚马逊云科技区域。更多信息,请参阅Amazon Bedrock Guardrails产品页面。

您可在Amazon Bedrock控制台中,立即试用多模态毒性检测内容过滤器。

亚马逊云科技区域列表:

https://docs.aws.amazon.com/glossary/latest/reference/glos-chap.html#region

Amazon Bedrock Guardrails产品页面:

https://aws.amazon.com/bedrock/guardrails/

Amazon Bedrock控制台:

https://console.aws.amazon.com/bedrock/home#/guardrails

本篇作者

Antje Barth

亚马逊云科技生成式AI首席开发者布道师

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

听说,点完下面4个按钮

就不会碰到bug了!

点击阅读原文查看博客!获得更详细内容!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值