Excuse me, sir? Your language model is leaking (information)

828 篇文章

已下架不支持订阅

本文介绍了如何使用加密方法在大型语言模型(LLM)的响应中隐藏秘密信息,确保没有密钥的情况下无法从模型的响应中提取有效载荷,且不会影响生成文本的质量。该方法扩展了CGZ的不可检测水印方案,探讨了编辑的稳健性和潜在局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列相关文章,针对《Excuse me, sir? Your language model is leaking (information)》的翻译。

摘要

我们介绍了一种加密方法来隐藏大型语言模型(LLM)响应中的任意秘密有效载荷。从模型的响应中提取有效载荷需要一个密钥,如果没有密钥,就无法区分原始LLM和隐藏有效载荷的LLM的响应。特别地,生成的文本的质量不受有效载荷的影响。我们的方法扩展了Christ,Gunn和Zamir的最新结果,他们为LLM引入了一种不可检测的水印方案。

1 引言

2 模型和前言

3 CGZ水印概述

4 我们方案的高级概述

5 动态纠错码

6 我们的范式

7 经验评价

8 局限性和悬而未决的问题

到目前为止,我们没有讨论的主要问题是编辑的稳健性。也就是说,即使以某种方式编辑了模型的响应,有效载荷也能恢复吗?我们主要将鲁棒性的处理留给未来的工作,接下来列出一些关于鲁棒性的观察结果。在CGZ中&#x

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值