Meta SecAlign: A Secure Foundation LLM Against Prompt Injection Attacks

原创于 2025-08-06 09:00:00 发布 · 197 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#prompt #人工智能 #自然语言处理

LLM Daily 同时被 2 个专栏收录

1839 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Security and Privacy

84 篇文章

订阅专栏

文章主要内容总结

该论文介绍了Meta SecAlign，这是首个开源、开放权重的大型语言模型（LLM），其内置模型级防御机制，旨在抵御提示注入（Prompt Injection, PI）攻击，同时保持商业级模型的性能。

研究背景：提示注入攻击是LLM集成应用的主要安全威胁，现有模型级防御虽有效但多为闭源，限制了AI安全社区的研究与协作。
核心目标：开发开源模型，通过开放研究推动提示注入攻击的攻防协同发展，填补开源领域空白。
技术方案：基于改进的SOTA SecAlign防御方法（命名为SecAlign++），在Llama 3系列模型（Llama-3.1-8B-Instruct和Llama-3.3-70B-Instruct）上进行微调，引入新的“input”角色分离不可信数据与可信指令，并通过直接偏好优化（DPO）和LoRA技术训练。
评估结果：在9个效用基准（如MMLU-Pro、GPQA）和7个安全基准（如InjecAgent、WASP）上的测试显示，Meta SecAlign（尤其是70B版本）在抵御提示注入攻击方面达到SOTA，且在未见过的下游任务（如工具调用、代理网页导航）中保持安全性，效用与闭源商业模型相当。
关键发现：仅通过通用指令调优数据集训练，模型即可泛化到未见过的安全任务；通过调整LoRA的α参数可灵活控制效用与安全性的权衡。

创

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。