-
研究背景:
随着生成性人工智能(Generative AI,简称GenAI)模型的快速发展和广泛应用,人们对其安全性、可靠性和信任度的担忧日益增加。这些模型,如大型语言模型(LLMs)、图像和视频生成模型以及音频生成模型,虽然在提高生产力、创造力和经济增长方面具有潜在优势,但同时也可能带来新的社会风险。例如,AI生成的文本可能表达对边缘化群体的歧视情绪,创建反映有害刻板印象的图像,以及生成深度伪造音频等。这些问题的缺乏透明度和可追溯性进一步加剧了公众的担忧。为了应对这些挑战,从业者和政策制定者将AI红队(red-teaming)视为识别和缓解风险的关键策略之一。 -
过去方案和缺点:
尽管AI红队在政策讨论和企业信息中占据了核心地位,但关于其具体含义、在监管中的作用以及与传统网络安全领域最初构想的红队实践之间的关系仍存在显著问题。以往的AI红队方法和实践在多个方面存在分歧,包括活动的目的(通常是模糊的)、评估的对象、活动进行的环境(例如参与者、资源和方法)以及它所指导的决策结果(例如报告、披露和缓解措施)。这些分歧导致了对AI红队效果的质疑,以及是否应该将其作为评估GenAI模型安全性的全面解决方案。 -
本文方案和步骤:
本文通过分析AI行业中的红队活动案例,并广泛调查相关研究文献,来描述AI红队实践的范围、结构和评估标准。作者提出了一系列问题,旨在指导未来的AI红队实践,包括活动前的准备、活动过程中的资源和方法选择,以及活动后的结果报告和风险缓解策略。这些问题旨在帮助评估者考虑红队练习的益处和局限性,以及特定设计选择的影响。 -
本文实验和性能:
本文并未进行实验或性能测试,而是通过案例研究和文献综述来分析现有的AI红队实践。作者通过对六个案例研究的分析,揭示了红队目标和过程的显著变化,以及评估团队组成和可用资源对红队结果的影响。此外,作者还对AI红队研究进行了广泛的调查,包括对威胁