自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 【论文精读】Detoxifying Large Language Models via Knowledge Editing

本文研究了如何利用知识编辑技术为大型语言模型(LLM)解毒。我们构建了一个基准--SafeEdit,它涵盖了九个不安全类别和各种强大的攻击提示,并配备了用于系统评估的综合指标。我们用几种知识编辑方法进行了实验,结果表明知识编辑有可能在对一般性能影响有限的情况下有效地为 LLM 解毒。然后,我们提出了一个简单而有效的基线,称为 "术中神经监测解毒(DINM)",通过一个实例在几个调整步骤内降低 LLM 的毒性。

2024-09-21 19:06:27 1867

原创 【论文精读】Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis

大型语言模型(LLM)容易受到一种被称为 "越狱 "的攻击,这种攻击会误导 LLM 输出有害内容。虽然越狱攻击策略多种多样,但对于为什么有些方法会成功,有些方法会失败,还没有统一的认识。本文探讨了有害和无害提示在 LLM 表示空间中的行为,以研究成功越狱攻击的内在属性。我们假设,成功的攻击具有一些相似的特性:它们能有效地将有害提示的表征向无害提示的方向移动。我们利用现有越狱攻击目标中的隐藏表征,使攻击沿着接受的方向移动,并利用提出的目标进行实验来验证上述假设。

2024-09-15 17:00:16 1905

原创 【论文精读】FUNCTION VECTORS IN LARGE LANGUAGE MODELS

我们报告了一种简单的神经机制的存在,该机制将输入输出函数表示为自回归变压器语言模型(LM)中的向量。对各种上下文学习(ICL)任务进行因果中介分析,我们发现少量注意力头传输所演示任务的紧凑表示,我们将其称为函数向量(FV)。FV 对上下文的变化具有鲁棒性,即它们会在零样本和自然文本设置等输入上触发任务执行,这些输入与收集它们的 ICL 上下文不同。我们在一系列任务、模型和层中测试 FV,并在中间层的设置中发现强烈的因果效应。

2024-09-15 14:21:47 561

原创 【论文精读】Explainability for Large Language Models: A Survey

大型语言模型 (LLM) 在自然语言处理方面表现出了令人印象深刻的能力。然而,它们的内部机制仍不清楚,缺乏透明度给下游应用带来了不必要的风险。因此,理解和解释这些模型对于阐明它们的行为、局限性和社会影响至关重要。在本文中,我们介绍了可解释性技术的分类,并提供了用于解释基于 Transformer 的语言模型的方法的结构化概述。我们根据法学硕士的培训范式对技术进行分类:传统的基于微调的范式和基于提示的范式。对于每个范式,我们总结了生成个体预测的局部解释和整体模型知识的全局解释的目标和主要方法。

2024-09-14 15:22:16 1045

原创 【论文精读】EEG-Defender: Defending against Jailbreak through Early Exit Generation of Large Language Mode

大型语言模型(LLM)在各种应用中越来越受到关注。尽管如此,随着一些用户试图利用这些模型进行恶意目的,包括合成受控物质和传播虚假信息,人们越来越担心。为了减轻此类风险,开发了“对齐”技术的概念。然而,最近的研究表明,这种对齐方式可能会被复杂的提示工程或对抗性后缀所破坏,这种技术被称为“越狱”。我们的研究借鉴了法学硕士的类人生成过程。我们发现,虽然越狱提示可能会产生与良性提示类似的输出逻辑,但它们在模型潜在空间中的初始嵌入往往更类似于恶意提示。

2024-09-09 23:54:28 673

原创 【论文精读】Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders

尽管大型语言模型 (LLM) 在各种任务中具有令人印象深刻的功能,但它们对不安全提示的脆弱性仍然是一个关键问题。这些提示可能会导致LLM对非法或敏感主题做出回应,对其安全和道德使用构成重大威胁。现有方法尝试使用分类模型来解决这个问题,但它们有几个缺点。随着不安全提示的复杂性日益增加,基于相似性搜索的技术可以识别不安全提示的特定特征,为这一不断发展的问题提供了更稳健、更有效的解决方案。本文研究了句子编码器区分安全提示和不安全提示的潜力,以及根据安全分类法对各种不安全提示进行分类的能力。

2024-09-06 16:04:40 558

原创 【论文阅读】Protecting Your LLMs with Information Bottleneck

大型语言模型(LLM)的出现彻底改变了自然语言处理领域,但它们可能会受到攻击,产生有害内容。尽管努力使LLM在道德上保持一致,但这些LLM往往很脆弱,可以通过优化或手动对抗提示进行越狱攻击来规避。为了解决这个问题,我们引入了信息瓶颈保护器(IBProtector),这是一种基于信息瓶颈原理的防御机制,我们修改了目标以避免琐碎的解决方案。IBProtector在轻量级和可训练的提取器的帮助下,选择性地压缩和扰动提示,只保留目标LLM用预期答案做出响应的基本信息。

2024-09-04 20:25:54 589 1

原创 【论文阅读】GradSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient Analysis

大型语言模型 (LLM) 面临越狱提示的威胁。现有的检测越狱提示的方法主要是在线审核 API 或微调的 LLM。然而,这些策略通常需要广泛且资源密集的数据收集和培训过程。在这项研究中,我们提出了 GradSafe,它通过仔细检查LLM中安全关键参数的梯度来有效地检测越狱提示。我们的方法基于一个关键的观察:LLM越狱提示的损失梯度与合规响应在某些安全关键参数上表现出类似的模式。相反,安全提示会导致不同的渐变模式。基于这一观察,GradSafe 分析提示的梯度(与合规性响应配对),以准确检测越狱提示。

2024-08-29 22:01:16 653 1

原创 【论文阅读】Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing

大型语言模型 (LLM) 越来越多地被广泛应用于现实世界的应用中。尽管LLM的表现令人印象深刻,但最近的研究表明,即使通过人类反馈的强化学习或监督微调进行调整,LLM也很容易受到故意设计的对抗性提示的影响。虽然现有的防御方法侧重于检测有害提示或通过各种手段减少有害响应的可能性,但基于 LLM 内部机制来保护 LLM 免受越狱攻击仍然很大程度上尚未探索。在这项工作中,我们研究了llm如何响应有害提示,并提出了一种称为特定层编辑(LED)的新颖防御方法,以增强llm抵御越狱攻击的能力。

2024-08-27 11:28:07 1690 1

原创 【论文阅读】Defending Large Language Models Against Attacks With Residual Stream Activation Analysis

以 OpenAI 的 ChatGPT 为代表的大型语言模型 (LLM) 的广泛采用,使防御这些模型上的对抗性威胁的必要性凸显出来。这些攻击通过引入恶意输入来操纵法学硕士的输出,破坏模型的完整性和用户对其输出的信任。为了应对这一挑战,我们的论文提出了一种创新的防御策略,允许白盒访问法学硕士,利用LLM的Transformer层之间的剩余激活分析。我们应用一种新颖的方法来分析残留流中的独特激活模式,以进行攻击提示分类。

2024-08-21 01:09:46 304 1

原创 【论文阅读】Refuse Whenever You Feel Unsafe: IMPROVING SAFETY IN LLMS VIA DECOUPLED REFUSAL TRAINING

这项研究通过识别和解决安全调优数据中的拒绝位置偏差,解决了大型语言模型 (LLM) 安全调优实践中的一个关键差距,该偏差损害了模型适当拒绝生成不安全内容的能力。我们引入了一种新颖的方法,即解耦拒绝培训(DeRTa),旨在使LLM能够在任何响应位置拒绝遵守有害提示,从而显着增强他们的安全能力。

2024-08-20 16:10:28 471 1

原创 【论文阅读】How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States

大型语言模型 (LLM) 依靠安全对齐来避免响应恶意用户输入。不幸的是,越狱可能会绕过安全护栏,导致LLM产生有害内容并引起人们对LLM安全的担忧。由于具有密集参数的语言模型通常被视为黑匣子,因此对齐和越狱的机制很难阐明。在本文中,我们采用弱分类器通过中间隐藏状态来解释 LLM 安全性。我们首先确认LLM在预训练期间学习道德概念而不是对齐,并且可以识别早期层中的恶意和正常输入。对齐实际上将早期概念与中间层的情感猜测相关联,然后将其细化为安全生成的特定拒绝标记。越狱扰乱了早期不道德分类向负面情绪的转变。

2024-08-19 19:48:35 647 1

原创 【论文笔记】SelfIE: Self-Interpretation of Large Language Model Embeddings

大型语言模型 (LLM) 如何获得答案?解释和控制 LLM 推理过程的能力对于可靠性、透明度和未来模型发展至关重要。我们提出了SelfIE(嵌入的自我解释),这是一个框架,使 LLM 能够通过利用其响应有关给定段落的询问的能力,用自然语言解释自己的嵌入。SelfIE 能够解释隐藏嵌入中的开放世界概念,可在做出道德决策、内化提示注入和回忆有害知识等情况下揭示 LLM 内部推理。SelfIE对隐藏嵌入的文本描述为控制 LLM 推理开辟了途径。我们提出了监督控制,它允许。

2024-07-27 13:10:58 551 1

原创 【大模型安全论文阅读】Detecting hallucinations in large language models using semantic entropy

论文名称:Detecting hallucinations in large language models using semantic entropy发表期刊:Nature作者:Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn & Yarin Gal。

2024-07-25 00:21:35 812 1

原创 北邮oj 平衡树

北邮OJ AVL树题目要求代码分析过程题目要求输入:一串字符被逗号隔开,注意最后一位是逗号输出:前序遍历AVL树,用逗号隔开代码#include<stdio.h>#include<stdlib.h>#define Max 50typedef struct tnode{ int data; int height; struct tnode*lchild; struct tnode*rchild;}*tree,Tree; int getheight

2021-10-22 17:18:38 216 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除