本文是LLM系列文章,针对《WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models》的翻译。
摘要
为了减少对大型语言模型(LLM)的潜在滥用,最近的研究开发了水印算法,该算法限制了生成过程,为水印检测留下不可见的痕迹。由于任务的两阶段性质,大多数研究分别评估生成和检测,从而对公正、彻底和适用的评估提出了挑战。在本文中,我们介绍了第一个LLM水印的综合基准WaterBench,其中我们设计了三个关键因素:(1)对于基准程序,为了确保苹果对苹果的比较,我们首先调整每种水印方法的超参数以达到相同的水印强度,然后联合评估它们的生成和检测性能。(2) 对于任务选择,我们将输入和输出长度多样化,形成一个五类分类法,涵盖9个任务。(3) 对于评估指标,我们采用GPT4 Judge来自动评估水印后指令跟随能力的下降。我们在2种水印强度下对2种LLM上的4种开源水印进行了评估,并观察了当前方法在保持生成质量方面的常见困难。代码和数据在https://github.com/thu-keg/waterbench可用.
1 引言
2 相关工作
3 WaterBench
4 实验
5 结论
在本文中,我们提出了WaterBench,这是一种评估大型语言模型水印的新基准。WaterBench旨在促进对水印检测和生成质量的公平和全面评估。我们首先介绍了一种基准测试程序,该程序搜索超参数,以统一不同方法的水印强度
本文提出WaterBench,一个用于全面评估大型语言模型(LLM)水印的基准,旨在统一生成和检测性能的评估,包含多样化的任务和评估指标。通过对4种开源水印在2种LLM上的实验,揭示了水印对生成质量的影响以及任务难度和水印强度的关系。所有资源已开源。
已下架不支持订阅
444

被折叠的 条评论
为什么被折叠?



