
论文翻译
文章平均质量分 92
anniewwy
这个作者很懒,什么都没留下…
展开
-
On Protecting the Data Privacy of Large Language Models (LLMs): A Survey -论文翻译
大型语言模型 (LLMs) 是复杂的人工智能系统,能够理解、生成和翻译人类语言。他们通过分析大量的文本数据来学习语言模式,使其能够执行写作、对话、总结等语言任务。当 LLMs 处理并生成大量数据时,存在一个泄露敏感信息的风险,这可能会威胁数据隐私。本文着重于阐明与 LLMs 相关的数据隐私问题,以促进一个全面的理解。具体来说,我们进行了一个彻底的调查,来描述数据隐私威胁的范围,包括 LLMs 中的被动隐私泄露和主动隐私攻击。原创 2024-05-20 23:31:22 · 932 阅读 · 0 评论 -
论文翻译 - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM
最近,大型语言模型 (LLM) 取得了重大进展,现在广泛用于各个领域。不幸的是,人们越来越担心llm可能被滥用来生成有害或恶意的内容。尽管一项研究侧重于将 LLM 与人类值对齐并防止它们产生不适当的内容,但这种对齐通常很容易受到攻击,并且可以通过对抗性优化或手工制作的越狱提示来绕过对齐进行攻击。在这项工作中,我们引入了一个鲁棒对齐LLM (RA-LLM)来防御潜在的对齐破坏攻击。原创 2024-03-25 15:34:30 · 1026 阅读 · 0 评论 -
论文翻译 - Multilingual Jailbreak Challenges in Large Language Models
虽然大型语言模型 (LLMs) 在广泛的任务中表现出显着的能力,但它们带来了潜在的安全问题,例如“越狱”问题,其中恶意指令可以操纵 LLMs 以表现出不良行为。尽管已经开发了几种预防措施来减轻与 LLMs 相关的潜在风险,但它们主要集中在英语上。在这项研究中,我们揭示了 LLMs 中多语言的越狱挑战的存在,并考虑了两种潜在的危险场景:无意和有意的。无意的场景涉及用户使用非英语提示查询 LLMs 并无意中绕过安全机制,而有意的场景涉及恶意用户将恶意指令与多语言提示相结合来故意攻击 LLMs。原创 2024-03-26 11:09:25 · 1258 阅读 · 0 评论 -
论文翻译 - HotFlip: White-Box Adversarial Examples for Text Classification
我们提出了一种有效的方法来生成白盒的对抗样本去欺骗一个字符级的神经分类器。我们发现只需要很少的一些操作就能大大降低准确性。我们的方法依赖于一个原子级的翻转操作,也就是根据 one-hot 的输入向量的梯度,将一个token转换成另一个。由于我们方法的有效性,我们可以执行对抗训练,来使模型在测试时对攻击更加鲁棒。通过使用一些语义保持的约束,我们证明 HotFlip 也可以适用于对单词级的分类器的攻击。原创 2024-03-19 21:31:49 · 1117 阅读 · 0 评论 -
论文翻译 - Abusing Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs
我们展示了图像和声音如何用于多模态 LLMs 中的间接提示和指令注入。攻击者生成与提示相对应的对抗性扰动,并将其混合到图像或音频记录中。当用户向(未经修改的,良性的)模型询问关于扰动图像或音频时,扰动会引导模型输出攻击者选择的文本和/或使后续对话遵循攻击者定下的指令。我们用几个针对 LLaVA 和 PandaGPT 的概念证明示例来说明这种攻击。原创 2024-03-11 11:20:30 · 1044 阅读 · 0 评论 -
论文翻译 - BITE: Textual Backdoor Attacks with Iterative Trigger Injection
后门攻击已成为 NLP 系统的新兴威胁。通过提供被投毒的训练数据,攻击者可以将“后门”嵌入到受害模型中,这允许满足某些文本模式(例如,包含关键字)的输入实例被预测为敌手选择的目标标签。在本文中,我们证明了设计一种既隐蔽(即难以注意)又有效(即攻击成功率较高)的后门攻击是可能的。我们提出了 BITE,这是一种后门攻击,它投毒训练数据以建立目标标签和一组“触发词”之间的强相关性。这些触发词通过自然单词级的扰动迭代地识别和注入到目标标签实例中。中毒的训练数据指示受害模型在包含触发词的输入上预测目标标签,形成后门。原创 2024-03-12 15:53:44 · 1262 阅读 · 0 评论 -
论文翻译 - Visual Adversarial Examples Jailbreak Large Language Models
最近,人们对将视觉集成到大型语言模型 (LLM) 中的兴趣激增,例如 Flaminggo 和 GPT-4 等视觉语言模型 (VLM)。本文阐明了这一趋势的安全性和安全性影响。首先,我们强调视觉输入的连续和高维的性质使其成为对对抗性攻击的薄弱环节,这意味着视觉集成的LLM有更大可能被攻击。其次,我们强调LLM的多功能性也为视觉攻击者提供了更多的可实现对抗目标,这扩大了安全问题的影响,不再仅仅是分类错误。原创 2024-03-06 21:03:04 · 1210 阅读 · 0 评论 -
论文翻译 - Baseline Defenses for Adversarial Attacks Against Aligned Language Models
随着大型语言模型迅速变得无处不在,了解它们的安全漏洞变得至关重要。最近的工作表明,文本优化器可以产生能绕过审核和对齐的越狱的提示。从对抗性机器学习的丰富工作中汲取灵感,我们用三个问题来处理这些攻击:在这个领域中哪些威胁模型是很有用?基线的防御技术是如何在这个新领域执行的?LLM 的安全性如何不同于计算机视觉?我们评估了几种针对 LLMs 领先的对抗性攻击的基线防御策略,讨论了不同的可行和有效的设置。特别的,我们研究了三种类型的防御:检测(基于困惑度)、输入预处理(释义和重新标记)和对抗训练。原创 2024-03-19 11:55:07 · 1228 阅读 · 0 评论 -
论文翻译 - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs
随着大型语言模型 (LLMs) 的快速发展,新的和难以预测的有害能力正在出现。这需要开发人员能够通过评估“危险能力”来识别风险,来可靠地部署 LLMs。在这项工作中,我们收集了第一个开源数据集来评估 LLMs 中的安全保障措施,并以一个低成本部署了一个更安全的开源 LLMs。我们的数据集经过仔细挑选和过滤,只包含了可靠的语言模型不应遵循的指令。我们注释和评估了六个流行的 LLMs 对这些指令的响应。原创 2024-03-18 10:56:54 · 1088 阅读 · 0 评论 -
论文翻译 - AutoDAN Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
对齐的大型语言模型 (LLMs) 是强大的语言理解和决策工具,它们通过与广泛的人类反馈的对齐来创建。然而,这些大型模型仍然容易受到越狱攻击的影响,其中对手操纵提示来引出不应该由对齐的 LLMs 给出的恶意输出。研究越狱提示可以让我们深入研究 LLMs 的局限性,并进一步指导我们增强它们的安全性。原创 2024-03-25 22:52:52 · 2081 阅读 · 0 评论 -
论文翻译 - Automatically Auditing Large Language Models via Discrete Optimization
为意外行为审计大型语言模型对于抢占灾难性部署至关重要,但仍然具有挑战性。在这项工作中,我们将审计视为优化问题,其中我们自动搜索与所需目标行为匹配的输入输出对。例如,我们可能目标是找到一个无毒的输入,该输入从“Barack Obama”开始,模型会将其映射到一个有毒的输出。这个优化问题很难解决,因为可行的点集是稀疏的,空间是离散的,而且我们审计的语言模型是非线性的和高维度的。为了应对这些挑战,我们引入了一种离散优化算法ARCA,该算法联合且有效地优化了输入和输出。原创 2024-03-21 11:00:53 · 1306 阅读 · 0 评论 -
论文翻译 - Are aligned neural networks adversarially aligned?
现在大型语言模型被调整为和创建者的目标对齐,即“有用和无害”。这些模型应该对用户问题做出有益的反应,但拒绝回答可能导致伤害的请求。然而,对抗性用户可以构建输入来绕过对齐的尝试。在这项工作中,我们研究了当与构建最坏情况输入(对抗性示例)的敌手用户交互时,这些模型能在多大程度上还保持对齐。这些输入旨在使模型发出原本被禁止的有害内容。我们表明,现有的基于 NLP 的优化攻击不足以可靠地击破对齐的文本模型:但即使当前基于 NLP 的攻击失败了,我们还可以通过暴力破解找到对抗性输入。原创 2024-03-05 15:48:48 · 943 阅读 · 0 评论 -
论文翻译 - T5大模型 - Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
迁移学习,也就是模型首先在数据丰富的任务上进行预训练,然后再对下游任务进行微调,已成为自然语言处理 (NLP) 中的强大技术。迁移学习的有效性催生了多样的途径、方法和实践。在本文中,我们通过引入一个统一的框架来探索 NLP 的迁移学习技术的前景,该框架将所有基于文本的语言问题转化为文本到文本的格式。我们的系统研究比较了数十个语言理解任务的预训练目标、架构、未标记数据集、迁移方法和其他因素。原创 2024-02-01 15:15:48 · 1196 阅读 · 0 评论 -
论文翻译 - Universal and Transferable Adversarial Attacks on Aligned Language Models
由于“开箱即用”大型语言模型能够生成大量令人反感的内容,最近的工作集中在对齐这些模型以试图阻止不想要的生成。虽然在规避这些措施方面取得了一些成功——所谓的针对 LLMs 的“越狱”——但这些攻击需要大量的人类创造力,在实践中很脆弱。自动的对抗提示生成的尝试也只取得了有限的成功。在本文中,我们提出了一种简单有效的攻击方法,该方法会导致对齐的语言模型产生令人反感的行为。原创 2024-03-20 20:04:26 · 1401 阅读 · 0 评论 -
论文翻译 - Cross-Modal Transferable Adversarial Attacks from Images to Videos
最近的研究表明,在一个白盒模型上手工制作的对抗样本可用于攻击其他黑盒模型。这种跨模型可转移性使得执行黑盒攻击成为可能,这对现实世界的 DNN 应用程序提出了安全问题。然而,现有的工作主要集中在研究共享相同输入数据模态的不同深度模型之间的对抗性可迁移性。对抗性扰动的跨模态可迁移性从未被探索过。本文研究了对抗性扰动在不同模式下的可迁移性,即利用白盒图像模型生成的对抗性扰动来攻击黑盒视频模型。原创 2024-03-21 10:59:32 · 798 阅读 · 0 评论 -
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations - 论文翻译
近年来,预训练的大型语言模型 (LLMs) 在实现被称为上下文学习的推理时的少样本学习能力方面表现出显着的效率。然而,现有文献强调了这种能力对少镜头演示选择的敏感性。目前对这种能力的潜在机制的理解,即其能力来自常规的语言模型的预训练目标,仍然与现实世界的 LLMs 断开连接。本研究旨在通过一个贝叶斯透镜检查上下文学习现象,将现实世界的 LLMs 视为潜在变量模型。在此前提下,我们提出了一种用一个小 LM 从一组注释数据中选择最佳演示的算法,然后将选定的演示直接推广到更大的 LM。原创 2024-05-08 17:04:17 · 971 阅读 · 0 评论 -
MasterKey: Automated Jailbreaking of Large Language Model Chatbots - 论文翻译
大型语言模型 (LLMs) 由于其非凡的理解、生成和完整的像人类的文本的能力而迅速激增, LLM 聊天机器人也因此成为非常流行的应用。这些聊天机器人容易受到越狱攻击,也就是一个恶意用户操纵提示来揭示对使用策略来说敏感的、专有的或有害的信息。虽然已经进行了一系列越狱尝试来暴露这些漏洞,但我们在本文中的实证研究表明现有方法对主流 LLM 聊天机器人无效。它们降低功效的根本原因似乎是由服务提供商部署的以对抗越狱尝试的未披露的防御。原创 2024-05-06 18:52:15 · 1347 阅读 · 0 评论 -
On evaluating adversarial robustness of large vision language models - 论文翻译
GPT-4 等大型视觉语言模型 (VLM) 在响应生成方面取得了前所未有的性能,尤其是在视觉输入的情况下,与 ChatGPT 等大型语言模型相比,可以实现更具创造性和适应性的交互。尽管如此,多模态生成加剧了安全问题,因为对手可以通过巧妙地操纵最脆弱的模态(例如视觉)来成功地避开整个系统。为此,我们建议在最现实和高风险的环境中评估开源大型VLM的鲁棒性,其中对手只有黑盒系统访问,并试图欺骗模型返回目标响应。原创 2024-04-28 17:28:37 · 1092 阅读 · 0 评论 -
Open sesame! universal black box jailbreaking of large language models - 论文翻译
大型语言模型 LLMs,旨在为提供有用和安全的响应,通常依赖于对齐技术来与用户意图和社会指南保持一致。不幸的是,这种对齐可以被恶意行为者利用,试图操纵LLM的输出,以达到意想不到的目的。在本文中,我们介绍了一种新方法,该方法使用遗传算法 (GA) 并在模型架构和参数无法访问的情况下操纵 LLM。GA攻击通过优化一个通用的对抗提示来工作,即当与用户的查询相结合时——破坏被攻击模型的对齐机制,来导致意外和潜在有害的输出。我们的新方法通过揭示其响应偏离预期行为的实例来系统地揭示了模型的局限性和漏洞。原创 2024-04-24 09:56:25 · 1450 阅读 · 0 评论 -
Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery - 论文翻译
现代生成模型的优势在于它们能够通过基于文本的提示来控制。典型的“硬”提示由可解释的单词和标记组成,并且必须由人类手工制作。也有“软”提示,由连续的特征向量组成。这些可以使用强大的优化方法发现,但它们不能被轻易解释、跨模型重用或插入基于文本的界面。我们描述了一种通过有效的基于梯度的优化来稳健地优化硬文本提示的方法。我们的方法自动为文本到图像和文本到文本应用程序生成硬基于文本的提示。原创 2024-04-16 14:06:06 · 1205 阅读 · 0 评论 -
Gradient-based Adversarial Attacks against Text Transformers - 论文翻译
我们提出了第一个针对 transformer 模型的基于梯度的通用对抗性攻击。我们没有搜索单个对抗性示例,而是搜索由连续值的矩阵参数化的对抗性示例的分布,从而实现基于梯度的优化。我们凭实验说明,我们的白盒攻击在各种自然语言任务上实现了最先进的攻击性能,在匹配不可感知性——如每次自动化和人工评估——的对抗性成功率方面优于之前的工作。此外,我们展示了一个强大的黑盒迁移攻击,通过从对抗性分布中采样来实现,它匹配或超过了现有方法,而只需要硬标签输出。原创 2024-04-19 09:09:57 · 1286 阅读 · 0 评论