old_wang-handsome-优快云博客

原创越狱攻击：大语言模型间接越狱攻击（Poisoned Langchain: Jailbreak by LangChain）

在本文中，我们提出了间接越狱的概念并通过 LangChain 实现了检索增强生成。在此基础上，我们进一步设计了一种新的间接越狱攻击方法，称为 Poisoned-LangChain (PLC)，该方法利用中毒的外部知识库与大型语言模型进行交互，从而导致大型模型生成恶意的不合规对话。我们在三类主要越狱问题中的六种不同的中文大型语言模型上测试了此方法。实验表明，PLC 在三种不同场景下成功实施了间接越狱攻击，成功率分别为 88.56%、79.04% 和 82.69%。

2024-07-19 16:06:30 1679 2

原创大语言模型涌现:顿悟？涌现？产生意识？谈谈关于大语言模型能力涌现的个人看法

本文通过分析小模型的grokking和大模型的wiki现象来聊一下自己的感悟

2023-11-02 21:46:47 1452 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 越狱攻击：大语言模型间接越狱攻击 （Poisoned Langchain: Jailbreak by LangChain）

原创 大语言模型涌现:顿悟？涌现？产生意识？谈谈关于大语言模型能力涌现的个人看法

空空如也

空空如也

原创越狱攻击：大语言模型间接越狱攻击（Poisoned Langchain: Jailbreak by LangChain）

原创大语言模型涌现:顿悟？涌现？产生意识？谈谈关于大语言模型能力涌现的个人看法