本文是LLM系列文章,针对《Instructional Fingerprinting of Large Language Models》的翻译。
摘要
从头开始训练大型语言模型(LLM)的高昂成本使得对模型进行指纹识别至关重要,以通过所有权验证保护知识产权,并确保下游用户和开发人员遵守其许可条款(例如限制商业使用)。在这项研究中,我们对LLM指纹作为一种非常轻量级的指令调优形式进行了初步研究。模型发布者指定了一个机密私钥,并将其作为指令后门植入,当密钥存在时,LLM会生成特定的文本。对11个常用LLM的结果表明,这种方法是轻量级的,不会影响模型的正常行为。它还防止发布者过度声明,保持对指纹猜测和参数高效训练的鲁棒性,并支持类似于MIT许可证的多阶段指纹识别。
1 引言
2 语言模型指纹
3 指令指纹
4 实验
5 结论
由于LLM从头开始训练的成本很高,因此指纹模型保护知识产权很重要。在这项试点研究中,我们介绍了第一个配方,即INSTRUCTIONALFINGERPRINT,通过利用指令毒药攻击对生成LLM进行高效和有效的指纹识别。指纹是无害的(不影响通用性),隐蔽,重量轻,即使在广泛的下游微调后仍然持久。我们希望我们的方法将为LLM指纹图谱提供有价值的见解,并促进该领域的进一步研究。
局限性
在这项工作中,我们发现指令制定的实例更有能力对语言模型进行指纹识别。研究一下为什么指令制定的实例特别难以忘记,可能会很有趣。此外,为了简单起见,我们在正则化和中毒实例之间保持5:1的一致比例(§3.
本文探讨了大型语言模型(LLM)的指纹识别,尤其是通过指令调优的方法。研究指出,模型发布者可以通过在LLM中植入秘密指令后门来创建指纹,以保护知识产权并确保合规使用。实验结果显示,这种指纹方法对模型性能影响小,且能有效防止过度声明。然而,工作也提到了一些局限性,包括指令选择的特定性和需要可信第三方验证的问题。
已下架不支持订阅
1384





