本文是LLM系列文章,针对《Stealing Part of a Production Language Model》的翻译。
窃取生产语言模型的一部分
摘要
我们介绍了第一种模型窃取攻击,该攻击从OpenAI的ChatGPT或谷歌的PaLM-2等黑匣子生产语言模型中提取精确、重要的信息。具体来说,我们的攻击恢复了Transformer模型的嵌入投影层(直到对称性),给定了典型的API访问。我们的攻击只需不到20美元,就可以提取OpenAI的ada和babbage语言模型的整个投影矩阵。因此,我们首次确认,这些黑匣子模型的隐藏维度分别为1024和2048。我们还恢复了gpt-3.5-turbo模型的确切隐藏维度大小,并估计恢复整个投影矩阵的查询成本不到2000美元。我们总结了潜在的防御和缓解措施,并讨论了可能扩展我们攻击的未来工作的影响。