亚马逊云科技在Amazon Bedrock Guardrails中推出支持图像的多模态毒性检测功能(预览版),该功能除了检测文本外,还能检测和过滤不良图像内容,帮助您提升用户体验,并更好管理生成式AI应用中的模型输出。
Amazon Bedrock Guardrails可过滤不良内容、编辑个人身份信息(PII)以及增强内容安全性和隐私性,从而帮助您为生成式AI应用程序实施保障措施。您可以配置拒绝主题、内容过滤器、词语过滤器、PII编辑、上下文相关性检查和自动推理检查(预览版),以便根据特定用例和负责任的AI策略定制保障措施。
随着支持图像的多模态毒性检测功能的推出,您现在可以使用Amazon Bedrock Guardrails中的现有内容过滤策略,来检测和屏蔽仇恨、侮辱、色情和暴力等各类有害图片内容。您可以根据应用程序的需求,配置从低到高的阈值。
这项新的图像支持功能,可与Amazon Bedrock中所有支持图像数据的基础模型(FMs)以及用户自有的任何自定义微调模型兼容。它为文本和图像模式提供了一致的保护层,使得构建负责任的AI应用变得更加容易。
KONE公司副总裁、战略合作部负责人Tero Hottinen,设想了以下应用场景。
在持续评估过程中,KONE公司认识到Amazon Bedrock Guardrails作为保护生成式AI应用的关键组件的潜力,尤其是在相关性和上下文基础检查以及多模态防护方面。KONE设想将其产品设计图和手册集成到其应用程序中,而Amazon Bedrock Guardrails将在实现更精确的多模态内容诊断和分析方面,发挥至关重要的作用。
本文将介绍其工作原理。
多模式毒性检测功能实际应用
要开始使用,请在亚马逊云科技管理控制台中创建防护,并为文本数据、图像数据或两者配置内容过滤器,您还可以使用Amazon SDK将此功能集成到您的应用程序中。
亚马逊云科技管理控制台:
https://aws.amazon.com/console/
Amazon SDK:
https://aws.amazon.com/developer/tools/
创建防护
在控制台中,导航到Amazon Bedrock并选择“Guardrails”,您可以在此创建新的防护,并使用现有的内容过滤器来检测并屏蔽文本数据之外的图像数据。
在“配置内容过滤器”部分,您可以针对仇恨、侮辱、色情和暴力等类别,配置为针对文本、图像进行过滤,或者针对两者都进行过滤,而对于不当行为和提示攻击这两类问题,目前仅支持配置为针对文本内容进行过滤。
选择并配置好需要使用的内容过滤器后,您可以保存防护,并开始用其构建安全、负责任的生成式AI应用程序。
要在控制台中测试新的防护,请选择该防护并选择“测试”,您有两个测试选项:
选择并调用模型来测试防护。
无需调用模型,只需使用Amazon Bedrock Guardrails独立的ApplyGuardrail API来测试防护。
使用ApplyGuardrail API,您可以在应用程序流程的任意节点验证内容,然后再进行处理或向用户提供服务结果。您还可以使用该API来评估任何自管理(自定义)或第三方FM的输入和输出,而无需考虑其底层基础设施。例如,您可以使用该API来评估托管在Amazon SageMaker上的Meta Llama 3.2模型,或在您的笔记本电脑上运行的Mistral NeMo模型。
1
选择并调用模型测试防护
选择一个支持图像输入或输出的模型,例如Anthropic的Claude 3.5 Sonnet,确认其是否已为图像内容启用提示和响应过滤器。然后提供提示、上传图像文件,并选择“运行”。
在本例中,Amazon Bedrock Guardrails进行了干预,可选择“查看追踪”了解详细信息。
防护追踪记录了交互过程中安全措施的应用情况,它显示了Amazon Bedrock Guardrails是否进行了干预,以及对输入(提示)和输出(模型响应)进行了哪些评估。本例中内容过滤器屏蔽了输入提示,因为它们以高置信度检测到图像中包含侮辱性内容。
2
无需调用模型测试防护
在控制台中,选择“使用独立于API的防护”,以在不调用模型的情况下测试防护。选择验证输入提示或者模型生成的输出示例,然后重复之前步骤。确认是否已为图像内容启用提示和响应过滤器,提供要验证的内容,并选择“运行”。
本例在演示中使用了相同的图像和输入提示,Amazon Bedrock Guardrails再次进行了干预。再次选择“查看追踪”,了解详细信息。
现已可用
支持图像的多模态毒性检测功能现已在Amazon Bedrock Guardrails中以预览版形式提供,可用区域包括美国东部(北弗吉尼亚州、俄亥俄州)、美国西部(俄勒冈州)、亚太地区(孟买、首尔、新加坡、东京)、欧洲(法兰克福、爱尔兰、伦敦)以及Amazon GovCloud(美国西部)等亚马逊云科技区域。更多信息,请参阅Amazon Bedrock Guardrails产品页面。
您可在Amazon Bedrock控制台中,立即试用多模态毒性检测内容过滤器。
亚马逊云科技区域列表:
https://docs.aws.amazon.com/glossary/latest/reference/glos-chap.html#region
Amazon Bedrock Guardrails产品页面:
https://aws.amazon.com/bedrock/guardrails/
Amazon Bedrock控制台:
https://console.aws.amazon.com/bedrock/home#/guardrails
本篇作者
Antje Barth
亚马逊云科技生成式AI首席开发者布道师
星标不迷路,开发更极速!
关注后记得星标「亚马逊云开发者」
听说,点完下面4个按钮
就不会碰到bug了!
点击阅读原文查看博客!获得更详细内容!