本文是LLM系列相关文章,针对《Excuse me, sir? Your language model is leaking (information)》的翻译。
对不起,先生?您的语言模型正在泄漏(信息)
摘要
我们介绍了一种加密方法来隐藏大型语言模型(LLM)响应中的任意秘密有效载荷。从模型的响应中提取有效载荷需要一个密钥,如果没有密钥,就无法区分原始LLM和隐藏有效载荷的LLM的响应。特别地,生成的文本的质量不受有效载荷的影响。我们的方法扩展了Christ,Gunn和Zamir的最新结果,他们为LLM引入了一种不可检测的水印方案。
1 引言
2 模型和前言
3 CGZ水印概述
4 我们方案的高级概述
5 动态纠错码
6 我们的范式
7 经验评价
8 局限性和悬而未决的问题
到目前为止,我们没有讨论的主要问题是编辑的稳健性。也就是说,即使以某种方式编辑了模型的响应,有效载荷也能恢复吗?我们主要将鲁棒性的处理留给未来的工作,接下来列出一些关于鲁棒性的观察结果。在CGZ中&#x