本文是LLM系列文章,针对《Instructional Fingerprinting of Large Language Models》的翻译。
摘要
从头开始训练大型语言模型(LLM)的高昂成本使得对模型进行指纹识别至关重要,以通过所有权验证保护知识产权,并确保下游用户和开发人员遵守其许可条款(例如限制商业使用)。在这项研究中,我们对LLM指纹作为一种非常轻量级的指令调优形式进行了初步研究。模型发布者指定了一个机密私钥,并将其作为指令后门植入,当密钥存在时,LLM会生成特定的文本。对11个常用LLM的结果表明,这种方法是轻量级的,不会影响模型的正常行为。它还防止发布者过度声明,保持对指纹猜测和参数高效训练的鲁棒性,并支持类似于MIT许可证的多阶段指纹识别。
1 引言
2 语言模型指纹
3 指令指纹
4 实验
5 结论
由于LLM从头开始训练的成本很高,因此指纹模型保护知识产权很重要。在这项试点研究中,我们介绍了第一个配方,即INSTRUCTIONALFINGERPRINT,通过利用指令毒药攻击对生成LLM进行高效和有效的