
LLMs-安全
文章平均质量分 88
CSPhD-winston-杨帆
合作:winstonyf@qq.com 暨大博士生 川师大研究生 前成都东软教师
展开
-
论文阅读:2024 EACL M4: Multi-Generator, Multi-Domain, and Multi-Lingual Black-Box Machine-Generated Text
这篇论文聚焦于大语言模型(LLMs)生成文本的检测问题。随着LLMs广泛应用,其生成文本存在被滥用的风险,如在新闻、教育、学术领域传播虚假信息等,而人工辨别机器和人类撰写的文本比较困难,所以需要自动检测系统。原创 2025-03-28 17:06:23 · 867 阅读 · 0 评论 -
AIGC_text_detector 论文复现 Multiscale Positive-Unlabeled Detection of AI-Generated Texts
这是目前找到的相对靠谱的AI生成文本检测工具。原创 2025-03-23 01:01:48 · 224 阅读 · 0 评论 -
ImBD 复现 Imitate Before Detect: Aligning Machine Stylistic Preference for Machine-Revised Text Detect
【代码】ImBD 复现 Imitate Before Detect: Aligning Machine Stylistic Preference for Machine-Revised Text Detect。原创 2025-03-22 15:34:08 · 265 阅读 · 0 评论 -
chatgpt-comparison-detection 复现- AI生成文本检测
总目录 大模型安全相关研究:https://blog.youkuaiyun.com/WhiffeYF/article/details/142132328https://arxiv.org/pdf/2301.07597github:https://github.com/Hello-SimpleAI/chatgpt-comparison-detection检测单条文本,中文版(需要下载这个模型):https://huggingface.co/Hello-SimpleAI/chatgpt-detector-roberta-c原创 2025-03-16 20:37:26 · 789 阅读 · 0 评论 -
论文翻译:ACL-2024.Zeng Y.CCF-A How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
大多数传统的AI安全研究将AI模型视为机器,并以安全专家开发的、以算法为中心的攻击为主。随着大型语言模型(LLM)变得越来越普遍和能干,非专家用户在日常互动中也可能带来风险。本文提出了一个新的视角,将LLM视为类人沟通者来越狱,以探索日常语言互动与AI安全之间被忽视的交叉点。具体来说,我们研究了如何说服LLM进行越狱。首先,我们提出了一个源自数十年社会科学研究的说服分类法。然后,我们将这个分类法应用于自动生成可解释的说服性对抗性提示(PAP)来越狱LLM。原创 2024-09-12 16:50:41 · 700 阅读 · 0 评论 -
论文翻译:ACL-2024 CCF-A radSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient
大型语言模型(LLMs)面临着越狱提示的威胁。现有的检测越狱提示的方法主要是在线内容审核API或微调后的LLMs。然而,这些策略通常需要广泛且资源密集的数据收集和训练过程。在这项研究中,我们提出了GradSafe,它通过仔细检查LLMs中安全关键参数的梯度来有效检测越狱提示。我们的方法基于一个关键的观察:越狱提示与遵从性回应(如“当然”)配对时,LLMs损失的梯度在某些安全关键参数上显示出相似的模式。相比之下,安全提示导致不同的梯度模式。原创 2024-09-12 12:58:11 · 803 阅读 · 0 评论 -
论文翻译:IEEE-2023 Analyzing leakage of personally identifiable information in language models
语言模型(LM)已被证明可以通过句子级别的成员推断和重建攻击泄露训练数据信息。对LM泄露个人身份信息(Personally Identifiable Information, PII)的风险理解受到了较少的关注,这可以归因于错误地假设数据集策划技术(如擦除)足以防止PII泄露。擦除技术减少了但并未阻止PII泄露的风险:在实践中,擦除是不完美的,并且必须在最小化披露和保留数据集效用之间权衡。另一方面,尚不清楚算法防御措施(如差分隐私)在多大程度上防止了PII披露,这些措施旨在保证句子或用户级别的隐私。原创 2024-09-12 10:18:14 · 1013 阅读 · 0 评论 -
论文翻译:USENIX-2021 Extracting Training Data from Large Language Models
现在,发布在私有数据集上训练的大型(数十亿参数)语言模型已经变得很常见。本文展示了在这种设置中,攻击者可以通过查询语言模型来恢复个别训练样本,从而执行训练数据提取攻击。我们在GPT-2上展示了我们的攻击,GPT-2是一个在公共互联网抓取的数据上训练的语言模型,我们能够从模型的训练数据中提取数百个逐字文本序列。这些提取的示例包括(公共)个人身份信息(姓名、电话号码和电子邮件地址)、IRC对话、代码和128位UUID。即使在训练数据中每个上述序列只包含在一个文档中,我们的攻击也是可能的。原创 2024-09-12 09:50:47 · 1412 阅读 · 0 评论 -
论文翻译:arxiv-2023 Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs
随着大型语言模型(LLMs)的快速发展,出现了新的、难以预测的有害能力。这要求开发者能够通过评估“危险能力”来识别风险,以便负责任地部署LLMs。在这项工作中,我们收集了第一个开源数据集,用于评估LLMs中的安全保障,并以低成本部署更安全的开源LLMs。我们的数据集经过策划和筛选,只包含负责任的语言模型不应遵循的指令。我们注释并评估了六个流行的LLMs对这些指令的响应。基于我们的注释,我们继续训练了几个类似BERT的分类器,并发现这些小型分类器在自动安全评估上能够取得与GPT-4相当的成果。原创 2024-09-11 15:03:29 · 823 阅读 · 0 评论 -
论文翻译:ACM-2023 Not what you‘ve signed up for: Compromising real-world llm-integrated applications
大型语言模型(LLMs)正越来越多地被集成到各种应用程序中。最近的LLMs的功能可以通过自然语言提示灵活调节。这使它们容易受到针对性的对抗性提示的影响,例如,提示注入(PI)攻击使攻击者能够覆盖原始指令和使用的控制。到目前为止,人们一直假设是用户直接提示LLM。但是,如果不是用户提示呢?我们认为,集成了LLM的应用模糊了数据和指令之间的界限。我们揭示了新的攻击向量,使用间接提示注入,使对手能够在没有直接界面的情况下远程利用集成了LLM的应用,通过策略性地将提示注入到可能被检索的数据中。原创 2024-09-11 12:05:58 · 1137 阅读 · 0 评论 -
论文翻译:arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models
基于Transformer的大型语言模型(LLMs)为大规模面向客户的应用程序中的自然语言任务提供了强大的基础。然而,探索恶意用户互动中出现的漏洞的研究却很少。通过提出PROMPTINJECT,一个基于掩码的迭代对抗性提示组合的平淡对齐框架,我们检验了GPT-3(生产中部署最广泛的语言模型)如何容易被简单的手工输入所误导。特别是,我们研究了两种类型的攻击——目标劫持和提示泄露——并展示了即使是低能力的,但足够恶意的代理,也可以轻易利用GPT-3的随机性,造成长尾风险。原创 2024-09-11 11:12:57 · 1357 阅读 · 0 评论 -
论文翻译:Scaling Instruction-Finetuned Language Models
在一系列以指令形式表述的数据集上对语言模型进行微调已被证明可以提高模型性能并推广到未见任务。在本文中,我们探索了指令微调,特别关注(1)扩展任务数量,(2)扩展模型规模,以及(3)在思维链数据上进行微调。我们发现,上述方面的指令微调显著提高了多种模型类别(PaLM、T5、U-PaLM)、提示设置(零次、少次、思维链)和评估基准(MMLU、BBH、TyDiQA、MGSM、开放式生成、RealToxicityPrompts)的性能。原创 2024-08-29 12:43:09 · 1231 阅读 · 0 评论 -
论文翻译:EMNLP-2023 CCF-B Multi-step Jailbreaking Privacy Attacks on ChatGPT
随着大型语言模型(LLMs)的快速发展,许多下游自然语言处理(NLP)任务在适当的提示下可以得到很好的解决。尽管模型开发者和研究人员努力提高对话安全性,以避免从LLMs生成有害内容,但仍然很难确保人工智能生成的内容(AIGC)用于人类的利益。由于强大的LLMs正在吞噬来自各个领域的现有文本数据(例如,GPT-3是在45TB文本上训练的),很自然地会怀疑训练数据中是否包含了私人信息,以及这些LLMs及其下游应用可能带来哪些隐私威胁。原创 2024-08-23 21:45:14 · 1077 阅读 · 0 评论 -
论文翻译:Are aligned neural networks adversarially aligned?
大型语言模型现在被调整以符合其创造者的目标,即“有帮助且无害”。这些模型应该对用户问题做出有帮助的回应,但拒绝回答可能导致伤害的请求。然而,对抗性用户可以构建输入,绕过对齐尝试。在这项工作中,我们研究了对抗性对齐,并询问这些模型在与构建最坏情况输入(对抗性示例)的对抗性用户交互时,在多大程度上保持对齐。这些输入旨在使模型发出原本被禁止的有害内容。我们展示了现有的基于NLP的优化攻击不足以可靠地攻击对齐的文本模型:即使当前基于NLP的攻击失败,我们也可以暴力找到对抗性输入。原创 2024-08-20 14:52:20 · 796 阅读 · 0 评论 -
论文翻译:Universal and Transferable Adversarial Attacks on Aligned Language Models
因为“即开即用”的大型语言模型能够生成大量令人反感的内容,近期的工作集中在对这些模型进行对齐,以防止不受欢迎的生成。尽管在规避这些措施方面取得了一些成功——即所谓的针对大型语言模型(LLMs)的“越狱”——这些攻击需要大量的人类智慧,并且在实践中很脆弱。自动对抗性提示生成的尝试也取得了有限的成功。在本文中,我们提出了一种简单有效的攻击方法,可以导致对齐的语言模型生成令人反感的行为。原创 2024-08-18 11:19:14 · 734 阅读 · 0 评论 -
论文翻译:NeurIPS-2024 Jailbroken: How Does LLM Safety Training Fail?
为安全和无害性而训练的大型语言模型(LLMs)仍然容易受到对抗性滥用的影响,这一点从早期发布的ChatGPT的“越狱”攻击的普遍性中得到了证明,这些攻击诱发了模型本应避免的不良行为。我们不仅认识到了这个问题,还研究了这些攻击为何会成功以及如何创建它们。目标冲突和泛化不匹配。当模型的能力和安全目标发生冲突时,就会出现目标冲突;而当安全训练未能泛化到能力存在的领域时,就会出现泛化不匹配。原创 2024-08-17 15:18:58 · 1191 阅读 · 0 评论 -
论文翻译:FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!
对大型语言模型(LLMs)进行微调以适应特定用例通常涉及对预训练的LLMs进行进一步的定制。Meta公开发布Llama模型和OpenAI的API允许在自定义数据集上微调GPT-3.5 Turbo,也鼓励这种做法。但是,这种自定义微调与安全成本有何关联?我们注意到,尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为,但它们并未涵盖将微调权限扩展到最终用户时的安全风险。我们的红队研究发现,即使是只有几个设计有敌意的训练示例进行微调,也可以破坏LLMs的安全对齐。原创 2024-08-15 22:00:25 · 543 阅读 · 0 评论 -
论文翻译:Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!
大型语言模型(LLMs)会经历安全对齐,以确保与人类的安全对话。然而,本文介绍了一种无需训练的攻击方法,能够逆转安全对齐,通过仅访问LLM输出的标记分布,将更强对齐的结果转变为更大的潜在伤害风险。具体来说,我们的方法通过对比安全对齐的语言模型(例如,Llama-2-chat)与其预训练版本(例如,Llama-2)的输出标记分布,实现了这种逆转,使得标记预测向安全对齐的相反方向转变。我们称这种方法为模拟错位(ED),因为从这种对比分布中采样可以证明是模拟了微调以最小化安全奖励的结果。原创 2024-08-13 10:12:19 · 1059 阅读 · 0 评论