robust distortion-free watermarks for language models

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量1.9k

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/132404421

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文介绍了一种在自回归语言模型中植入鲁棒、无失真的文本水印方法，能抵抗扰动且不影响文本分布。通过随机数序列与水印密钥映射，生成带水印文本，检测时使用密钥对齐文本。实验证明，这种方法在多种攻击下仍能可靠检测，尤其在大型语言模型中展现出强大的统计能力。

本文是LLM系列文章，针对《robust distortion-free watermarks for language models》的翻译。

摘要

我们提出了一种从自回归语言模型中在文本中植入水印的方法，该方法对扰动具有鲁棒性，而不会在一定的最大生成预算下改变文本上的分布。我们通过将一系列随机数映射到语言模型的样本来生成带水印的文本，这些随机数是我们使用随机水印密钥计算的。为了检测带水印的文本，任何知道密钥的一方都可以将文本与随机数字序列对齐。我们用两种采样方案来实例化我们的水印方法：逆变换采样和指数最小采样。我们将这些水印应用于三种语言模型-OPT-1.3B、LLaMA-7B和Alpaca-7B，以通过实验验证它们的统计能力和对各种转述攻击的鲁棒性。值得注意的是，对于OPT-1.3B和LLaMA-7B模型，我们发现即使在通过随机编辑（即替换、插入或删除）损坏了40-50%的token之后，我们也可以从35个token中可靠地检测到带水印的文本（p≤0.01）。对于Alpaca-7B模型，我们对典型用户指令的水印响应的可行性进行了案例研究。由于响应的熵较低，检测更加困难：大约25%的响应（其中值长度约为100个token）在p≤0.01的情况下是可检测的，并且水印对我们实现的某些自动转述攻击的鲁棒性也较差。