本文是LLM系列文章,针对《EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models》的翻译。
摘要
越狱攻击对于识别和减轻大型语言模型(LLM)的安全漏洞至关重要。它们旨在绕过保障措施,引出被禁止的输出。然而,由于各种越狱方法之间的显著差异,社区没有可用的标准实施框架,这限制了全面的安全评估。本文介绍了EasyJailbreak,这是一个统一的框架,简化了针对LLM的越狱攻击的构建和评估。它使用四个组件构建越狱攻击:Selector、Mutator、Constraint和Evaluator。这种模块化框架使研究人员能够轻松地从新组件和现有组件的组合中构建攻击。到目前为止,EasyJailbreak支持11种不同的越狱方法,并有助于广泛的LLM的安全验证。我们对10种不同LLM的验证揭示了一个重大漏洞,在各种越狱攻击下,平均漏洞概率为60%。值得注意的是,即使是像GPT-3.5-Turbo和GPT-4这样的高级模型,其平均攻击成功率(ASR)也分别为57%和33%。我们为研究人员发布了丰富的资源,包括网络平台、PyPI发布包、放映视频和实验输出。