文章标题:WaterBench Towards Holistic Evaluation of Watermarks for large language models
(中文翻译:WaterBench:对大型语言模型的水印进行整体评估)
文章来源:Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics ,2024
作者及作者单位:上清图1, 孙玉良, 白宇石 余继凡侯雷1李娟子1
1清华大学计算机科学与技术系, 北京 100084, 中国 2北京航空航天大学计算机科学与工程学院
原文链接
z-score的含义是什么?
GPT4-Judge ?
主要贡献:
为降低大型语言模型(LLMs)的潜在滥用风险,近期研究开发了水印算法——通过约束文本生成过程植入隐形标记以实现水印检测。由于该任务具有两阶段特性,多数研究对生成与检测环节分别评估,这导致难以进行客观、全面且具备实用价值的评估。本文提出首个LLM水印综合基准测试框架WaterBench,其设计包含三大核心要素:
(1)基准测试流程方面,为确保公平对比,我们首先调整各水印方法的超参数使其达到相同水印强度,再联合评估生成与检测性能;
(2)任务选择方面,通过多样化输入输出长度构建五类任务分类体系,涵盖9项具体任务;
(3)评估指标方面,采用GPT4-Judge自动量化水印植入后模型指令跟随能力的衰减程度。
我们在2种LLM上以2种水印强度测试了4种开源水印方案,发现现有方法普遍存在维持生成质量的挑战。
1 引言
图1:在AlpacaFarm(Dubois等人,2023年)的一个指令跟随基准测试示例上,生成的文本无水印和有水印(Kirchenbauer等人,2023a)的情况。配备了水印的LLM更倾向于生成绿色列表中的令牌,这些令牌随后可以通过更高的z分数测量(z > 4)来检测。我们利用TP(真正例)、TN(真负例)和GM(几何平均)共同评估水印性能。
大型语言模型(LLM)在生成类人文本方面已取得显著成功(Cai等,2023;OpenAI,2023;Bubeck等,2023)。然而,其潜在滥用也引发了担忧(Li等,2023a)。例如,ChatGPT可能被用于生成虚假新闻(Wang等,2023b),进而操纵公众舆论。为降低此类风险,有必要开发水印算法来检测文本是否由LLM生成(Kirchenbauer等,2023a)。如图所示,图1显示,带水印文本通过有偏见的词元分布生成,这一特征使其与无水印文本形成区分。我们认为水印技术的目标是在保持生成质量的同时实现高检测准确率,因此采用真阳性率(TP)、真阴性率(TN)和生成指标(GM)等通用评估指标进行水印效果评估(Ghosal等人,2023年)。
由于该任务具有两阶段特性,多数研究(Kuditipudi等人,2023年;赵等人,2023年)对生成和检测环节分别评估,且未对每种水印方法进行统一的超参数搜索,这可能导致不公平的比较。事实上,检测性能与生成质量之间通常存在此消彼长的关系。此外,既往评估往往仅基于C4 RealNewsLike数据集(Raffel等人,2020年)等单一数据集进行文本补全测试,无法全面衡量大语言模型的生成质量。
此外,大多数评估仅计算困惑度(Kirchenbauer等,2023b),该指标与人类偏好不一致,因此在大型语言模型(LLM)时代并不实用(Chia等,2023)。为解决这些问题,我们提出WaterBench——首个全面的LLM水印基准测试框架,其包含三个关键要素:(1)基准测试流程:我们首先引入水印强度概念(Mei等,2002),即对干扰的检测鲁棒性,用以量化由超参数控制的LLM水印权衡。我们设计了一个合理的超参数搜索流程:给定数据集和LLM模型,调整各水印方法的超参数以统一水印强度,随后固定参数以联合评估检测与生成性能。(2)任务选择:为对水印施加干扰,我们根据输入输出长度区分任务设置,这决定了水印可嵌入的信息量。因此我们构建了包含5个任务类别和9个子任务的新分类体系,这些任务选自具有不同长度设置的现有数据集(Dubois等,2023)。(3)评估指标:采用GPT4-Judge(Zheng等,2023)自动评估加水印后的指令跟随性能下降,并通过人工评估验证人类判断与GPT4的一致性。
基于WaterBench数据集,我们在2个LLM模型(Llama2-chat(Touvron等,2023)和InternLM(Team,2023))上对4种可复现水印方案进行实验,得出以下重要发现:(1)当调整0.7和0.95两种不同水印强度时,检测性能与生成性能呈现显著差异。换言之,若直接比较两种水印策略而不对齐其水在水印强度对比中,某些方面很容易出现一种方法"超越"另一种的情况(翻译出现差别)。(2)输出长度较短的任务通常更难被检测到,真阳性率较低。V2水印(Kirchenbauer等人,2023b)在几何均值指标上表现最佳。(3)在开放式任务中,若采用GPT4-judge评估,带水印的大语言模型性能会较原始模型下降超96%,这既反映了该指标的敏感性,也揭示了水印技术在保持生成质量方面的普遍困境。人工评估显示,GPT4与三位标注者间的科恩卡帕系数超过0.6,达到高度一致性水平。
本研究的主要贡献可归纳为三点:
(1)提出新型基准测试流程:先优化水印超参数,再联合评估检测性能与生成质量,从而消除不同水印强度间的非公平比较;
(2)构建多任务基准测试体系以推动后续研究;
(3)引入GPT4-Judge评估带水印大语言模型,有效捕捉生成质量的衰减现象。
2 相关工作
为检测大语言模型生成的文本,先前的研究(Tu等,2023;Guo等,2023;Mitchell等,2023)主要探索了基于特征来区分人类文本与大语言模型生成文本的分类器。然而,随着大语言模型与人类文本的相似度越来越高,某些分类器可能会错误地将人类文本识别为大语言模型生成文本(Sadasivan等,2023)。
除黑盒分类器外,近期研究还引入了白盒检测方法,通过向大语言模型生成的文本中嵌入水印(Tang等,2023;Yang等,2023;Liu等,2024)。推理时水印技术(Pan等,2024)通过随机划分词汇表并仅需每个解码步骤的概率分布,这确保了生成文本中存在可检测的模式,即所谓的水印。部分研究(Kirchenbauer等,2023b;Liu等,2023)着重提升对改写攻击(Krishna等,2023)或低熵环境(Lu等,2024)的检测鲁棒性。其他研究如无偏水印(Hu等,2023)和NS水印(Takezawa等,2023)则聚焦于提升生成文本的质量(Hou等,2024;Li等,2023b)。
另一方面,事后水印(Atallah等,2001;Topkara等,2005)也是研究方向之一,其通过同义词替换(Yang等,2023;Yoo等,2023)或文本改写(Munyer与Zhong,2023)将水印嵌入文本。近期,Sato等(2023)提出了一种简单有效的方法——将每个空格字符替换为其他空白字符编码点。然而,这种简单水印也容易被擦除。
3水基准(waterbench)
为探究推理时水印在检测与生成方面的表现,如图2所示,我们提出了一套确保公平比较的基准测试流程(第3.2节)。随后,我们展示了具有多样化长度分布的WaterBench数据集(第3.3节)。最后,我们引入了GPT4-Judge评估体系(第3.4节)。
图2:WaterBench评估流程示意图。给定一个大语言模型(LLM)、水印方法及我们的基准测试平台,首先通过超参数搜索确定各方法的水印强度,随后综合评估其检测性能与生成性能,以确保公平比较。上图对比了不通模型在各种指标的结果
3.1水印问题的定义
生成阶段 假设一个自回归式大型语言模型θ拥有词汇表V,序列S={ s 1 , s 2 , . . . , s ∣ S ∣ {s_{1},s_{2},...,s_{|S|}} s1