本文是LLM系列文章,针对《CODEIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code》的翻译。
摘要
随着大型语言模型 (LLM) 越来越多地用于自动化代码生成,人们通常希望知道代码是否是人工智能生成的以及由哪个模型生成的,特别是出于保护工业知识产权 (IP) 和防止教育中的学术不端行为等目的。将水印合并到机器生成的内容中是提供代码来源的一种方法,但现有的解决方案仅限于单个位或缺乏灵活性。我们提出了 CODEIP,这是一种用于基于 LLM 的代码生成的新水印技术。 CODEIP 能够插入多位信息,同时保留生成代码的语义,从而提高插入水印的强度和多样性。这是通过训练类型预测器来预测下一个token的后续语法类型以增强生成代码的语法和语义正确性来实现的。对五种编程语言的真实数据集进行的实验展示了 CODEIP 的有效性。
1 引言
2 前言
3 CODEIP
4 实验设置
5 结果与分析
6 相关工作
7 结论
在本文中,我们提出了 CODEIP 来对 LL