MARKLLM——LLM 水印开源工具包

最新推荐文章于 2025-07-26 08:31:57 发布

原创最新推荐文章于 2025-07-26 08:31:57 发布 · 1.3k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #gpt #chatgpt #人工智能 #语言模型

LLM 专栏收录该内容

133 篇文章

订阅专栏

引言

在这里插入图片描述
LLM 水印技术将不可察觉但可检测的信号集成到模型输出中，以识别 LLM 生成的文本，这对于防止滥用大型语言模型至关重要。这些水印技术主要分为两类：KGW 系列和 Christ 系列。KGW 系列修改了 LLM 生成的逻辑，通过根据前一个标记将词汇表分为绿色列表和红色列表来创建带水印的输出。在文本生成过程中，会将偏差引入绿色列表标记的逻辑中，以在生成的文本中偏向这些标记。然后根据绿色单词的比例计算统计指标，并建立阈值以区分带水印和不带水印的文本。KGW 方法的增强功能包括改进的列表分区、更好的逻辑操作、增加的水印信息容量、抵抗水印删除攻击以及公开检测水印的能力。

相反，Christ 系列改变了 LLM 文本生成过程中的采样过程，通过改变标记的选择方式来嵌入水印。这两个水印系列都旨在平衡水印的可检测性和文本质量，解决诸如在不同熵设置下的鲁棒性、增加水印信息容量以及防止删除尝试等挑战。最近的研究重点是改进列表分区和逻辑操作）、增强水印信息容量、开发抵抗水印删除的方法以及实现公开检测。最终，LLM 水印对于道德和负责任地使用 LLM 水印至关重要大型语言模型，提供一种追踪和验证 LLM 生成文本的方法。KGW 和 Christ Families 提供了两种不同的方法，每种方法都有独特的优势和应用，并通过持续的研究和创新不断发展。

由于 LLM 水印框架能够在模型输出中嵌入算法可检测的信号，因此识别由 LLM 框架生成的文本在减轻滥用大型语言模型的风险方面发挥着至关重要的作用。然而，目前市场上有大量的 LLM 水印框架，每个框架都有自己的观点和评估程序，因此研究人员很难轻松地尝试这些框架。为了解决这个问题，开源水印工具包 MarkLLM 提供了一个可扩展且统一的框架来实现 LLM 水印算法，同时提供用户友好的界面以确保易于使用和访问。此外，MarkLLM 框架支持自动可视化这些框架的机制，从而增强了这些模型的可理解性。MarkLLM 框架提供了一套全面的 12 种工具，涵盖三个视角，以及两个用于评估其性能的自动评估管道。本文旨在深入介绍 MarkLLM 框架，并探讨该框架的机制、方法、架构以及它与最先进框架的比较。那么让我们开始吧。

原文地址：https://www.unite.ai/markllm-an-open-source-toolkit-for-llm-watermarking/

MarkLLM：LLM 水印工具包

LLaMA、GPT-4、ChatGPT 等大型语言模型框架的出现显著提高了 AI 模型执行特定任务的能力，包括创意写作、内容理解、形式检索等等。然而，随着当前大型语言模型的卓越性能所带来的显著好处，某些风险也浮出水面，包括学术论文代写、LLM 生成的虚假新闻和描述以及个人冒充等等。考虑到与这些问题相关的风险，开发能够区分 LLM 生成的内容和人类内容的可靠方法至关重要，这是确保真实性的主要要求数字通信，并防止错误信息的传播。在过去几年中，LLM 水印一直被推荐为区分 LLM 生成内容和人类内容的有前途的解决方案之一，通过在文本生成过程中加入不同的特征，可以使用专门设计的检测器唯一地标识 LLM 输出。然而，由于 LLM 水印框架的激增和相对复杂的算法以及评估指标和观点的多样化，使得对这些框架进行实验变得异常困难。

为了弥补当前的差距，MarkLLM 框架尝试做出以下贡献。 马克·L· 提供一致且用户友好的界面，用于加载算法、生成带水印的文本、进行检测过程以及收集可视化数据。它为两个主要的水印算法系列提供了自定义可视化解决方案，使用户能够通过真实示例了解不同算法在各种配置下的工作方式。该工具包包括一个全面的评估模块，其中包含 12 种工具，用于解决可检测性、鲁棒性和文本质量影响。此外，它还具有两种类型的自动评估管道，支持用户自定义数据集、模型、评估指标和攻击，从而促进灵活而全面的评估。MARKLLM 采用模块化、松散耦合的架构设计，增强了可扩展性和灵活性。这种设计选择支持集成新算法、创新可视化技术以及未来开发人员对评估工具包的扩展。

目前已经提出了许多水印算法，但它们独特的实现方法往往优先考虑特定需求而不是标准化，从而导致了一些问题

课堂设计缺乏标准化： 由于类设计不够标准化，因此需要付出巨大努力来优化或扩展现有方法。
顶层调用接口不统一： 不一致的接口使批处理和复制不同的算法变得繁琐且费力。
代码标准问题： 挑战包括需要修改多个代码段中的设置以及不一致的文档，使定制和有效使用变得复杂。硬编码值和不一致的错误处理进一步阻碍了适应性和调试工作。

为了解决这些问题，我们的工具包提供了统一的实现框架，可以在灵活的配置下方便地调用各种最先进的算法。此外，我们精心设计的类结构为未来的扩展铺平了道路。下图演示了这套统一的实现框架的设计。

由于框架的分布式设计，开发人员可以直接向任何特定的水印算法类添加额外的顶级接口，而不必担心影响其他算法。

MarkLLM：架构与方法论

LLM 水印技术主要分为两类：KGW 系列和 Christ 系列。KGW 系列修改了 LLM 生成的逻辑，通过根据前一个标记将词汇表分为绿色列表和红色列表来创建带水印的输出。在文本生成过程中，会将偏差引入绿色列表标记的逻辑中，从而使生成的文本中更倾向于这些标记。然后根据绿色单词的比例计算统计指标，并建立阈值以区分带水印和不带水印的文本。KGW 方法的增强功能包括改进的列表分区、更好的逻辑处理、增加的水印信息容量、抵抗水印删除攻击以及公开检测水印的能力。

自动综合评估

评估 LLM 水印算法是一项复杂的任务。首先，它需要考虑各个方面，包括水印的可检测性、对篡改的鲁棒性以及对文本质量的影响。其次，从每个角度进行的评估可能需要不同的指标、攻击场景和任务。此外，进行评估通常涉及多个步骤，例如模型和数据集选择、带水印的文本生成、后处理、水印检测、文本篡改和度量计算。为了方便全面地评估 LLM 水印算法，MarkLLM 提供了十二种用户友好的工具，包括涵盖上述三个评估视角的各种度量计算器和攻击者。此外，MARKLLM 提供了两种类型的自动化演示管道，其模块可以灵活定制和组装，从而易于配置和使用**.**

对于可检测性方面，大多数水印算法最终都需要指定阈值来区分带水印和不带水印的文本。我们提供使用固定阈值的基本成功率计算器。此外，为了最大限度地减少阈值选择对可检测性的影响，我们还提供了一个支持动态阈值选择的计算器。此工具可以确定产生最佳 F1 分数的阈值，或根据用户指定的目标误报率 (FPR) 选择阈值。

在鲁棒性方面，MARKLLM 提供了三种词级文本篡改攻击：按指定比例随机删除词、使用 WordNet 作为同义词集随机替换同义词、使用 BERT 作为嵌入模型进行上下文感知的同义词替换。此外，还提供了两种文档级文本篡改攻击：通过 OpenAI API 或 Dipper 模型解释上下文。在文本质量方面，MARKLLM 提供了两种直接分析工具：困惑度计算器用于衡量流畅度，多样性计算器用于评估文本的多变性。为了分析水印在特定下游任务中对文本效用的影响，我们为机器翻译任务提供了 BLEU 计算器，为代码生成任务提供了通过与否判断器。此外，考虑到目前比较带水印和不带水印文本质量的方法，包括使用更强大的 LLM 进行判断，MarkLLM 还提供了 GPT 鉴别器，利用 GPT-4 比较文本质量。

评估流程

为了便于自动评估 LLM 水印算法，MARKLLM 提供了两条评估流程：一条用于评估有攻击和无攻击情况下的水印可检测性，另一条用于分析这些算法对文本质量的影响。按照此过程，我们实施了两条流程： WMDetect3 和 UWMDetect4。两者的主要区别在于文本生成阶段。前者需要使用水印算法中的generate_watermarked_text方法，而后者则依赖于text_source参数来确定是否直接从数据集中检索自然文本或调用generate_unwatermarked_text方法。

为了评估水印对文本质量的影响，我们生成了带水印和不带水印的文本对。然后，我们将这些文本连同其他必要的输入一起处理，并输入到指定的文本质量分析器中，以生成详细的分析和比较结果。按照这一流程，我们针对不同的评估场景实施了三个流程：

DirectQual.5：此流程专门设计用于分析文本质量，方法是直接比较带水印文本与未带水印文本的特征。它评估诸如困惑度 (PPL) 和对数多样性等指标，而无需任何外部参考文本。
RefQual.6：此流程通过将带水印和不带水印的文本与通用参考文本进行比较来评估文本质量。它测量与参考文本的相似度或偏差度，非常适合需要特定下游任务来评估文本质量的场景，例如机器翻译和代码生成。
ExDisQual.7：该流程使用外部判断器（例如 GPT-4（OpenAI，2023））来评估带水印和不带水印的文本的质量。鉴别器根据用户提供的任务描述评估文本，识别由于水印而导致的任何潜在质量下降或保留。当需要对水印的细微影响进行基于 AI 的高级分析时，此方法特别有价值。

MarkLLM：实验和结果

为了评估其性能，MarkLLM 框架对九种不同的算法进行了评估，并评估它们对文本质量的影响、稳健性和可检测性。
在这里插入图片描述

上表为 MarkLLM 支持的九种算法的可检测性评估结果。水印可检测性评估采用动态阈值调整，提供三种设置：目标 FPR 为 10%、目标 FPR 为 1% 和 F1 分数性能最佳的条件下。生成 200 个带水印的文本，200 个无水印的文本作为反面例子。我们提供了 1% 和 10% FPR 动态阈值调整下的 TPR 和 F1 分数，以及最佳性能下的 TPR、TNR、FPR、FNR、P、R、F1、ACC。下表为 MarkLLM 支持的九种算法的鲁棒性评估结果。对于每次攻击，生成 200 个带水印的文本并随后进行篡改，另外 200 个无水印的文本作为反面例子。我们报告每种情况下最佳性能下的 TPR 和 F1 分数。

在这里插入图片描述

总结

在本文中，我们讨论了 MarkLLM，这是一个开源的水印工具包，它提供了一个可扩展且统一的框架来实现 LLM 水印算法，同时提供了用户友好的界面以确保易于使用和访问。此外，MarkLLM 框架支持这些框架机制的自动可视化，从而增强了这些模型的可理解性。MarkLLM 框架提供了一套全面的 12 种工具，涵盖三个视角，以及两个用于评估其性能的自动评估流程。