-
研究背景:
当前的视觉大型语言模型(Vision Large Language Models, VLLMs)在多模态能力方面表现出色,但它们容易生成有害内容,并且对简单的攻击(如越狱攻击)非常脆弱。这些模型在实际部署中存在安全风险,可能会被恶意用户攻击以产生有害输出、劫持模型行为或获取非法活动信息。尽管已经有研究关注于如何保护大型语言模型(LLMs)免受攻击,但直接将这些策略应用于VLLMs并不直接,因为VLLMs面临的风险因素更加复杂。 -
过去方案和缺点:
以往的研究主要集中在通过人类反馈的强化学习(RLHF)等方法来保护LLMs,但这些方法资源消耗大,需要大量的人工标注,且训练过程具有挑战性。此外,现有的安全策略主要针对文本输入,而没有考虑到VLLMs在视觉-语言输入方面的安全性。因此,现有的安全技术并不能直接应用于VLLMs,且没有专门针对VLLMs的安全保护策略。 -
本文方案和步骤:
为了解决VLLMs的安全问题,作者提出了一种简单而有效的安全微调策略。首先,他们收集并策划了一个名为VLGuard的视觉-语言安全指令遵循数据集,该数据集涵盖了多种有害类别。然后,他们展示了将这个数据集集成到标准的视觉-语言微调中,或者用于事后微调,可以有效地使VLLMs与安全对齐。这一对齐过程对模型的有用性影响极小,甚至可能增强。具体步骤包括:- 数据收集协议:遵循OpenAI的使用政策和Meta的负责任使用指南,识别有害内容的类别和子类别。
- 数据集构建:为安全图像生成安全和不安全的指令-响应对,为不安全图像生成单一指令-响应对。
- 安全微调:提出了事后微调和混合微调两种策略,通过在VLGuard数据集上微调现有的VLLMs,显著提高了安全性。
-
本文实验和性能:
作者在多个现代VLLMs上进
论文笔记-Safety Fine-Tuning at (Almost) No Cost: ABaseline for Vision Large Language Models
最新推荐文章于 2025-07-23 23:38:46 发布