Stealing Part of a Production Language Model

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量227

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Security and Privacy 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136851075

LLM 日更同时被 2 个专栏收录

828 篇文章

已下架不支持订阅

LLM Security and Privacy

79 篇文章

订阅专栏

本文介绍了一种针对黑匣子生产语言模型如ChatGPT和PaLM-2的模型窃取攻击，能够从OpenAI和谷歌的模型中提取嵌入投影层。攻击者以低成本就能获取ada和babbage模型的隐藏维度，而gpt-3.5-turbo模型的隐藏维度恢复成本预估在2000美元以下。文章讨论了防御措施和未来攻击的潜在影响，强调了设计决策对系统安全的重要性。

本文是LLM系列文章，针对《Stealing Part of a Production Language Model》的翻译。

窃取生产语言模型的一部分

摘要
1 引言
2 相关工作
3 问题定义
4 Logit矢量API的提取攻击
5 Logit Bias API的提取攻击
6 从Logprob-free API中提取
7 评估
8 防御
9 未来工作
10 结论

摘要

我们介绍了第一种模型窃取攻击，该攻击从OpenAI的ChatGPT或谷歌的PaLM-2等黑匣子生产语言模型中提取精确、重要的信息。具体来说，我们的攻击恢复了Transformer模型的嵌入投影层（直到对称性），给定了典型的API访问。我们的攻击只需不到20美元，就可以提取OpenAI的ada和babbage语言模型的整个投影矩阵。因此，我们首次确认，这些黑匣子模型的隐藏维度分别为1024和2048。我们还恢复了gpt-3.5-turbo模型的确切隐藏维度大小，并估计恢复整个投影矩阵的查询成本不到2000美元。我们总结了潜在的防御和缓解措施，并讨论了可能扩展我们攻击的未来工作的影响。

1 引言

2 相关工作

3 问题定义

4 Logit矢量API的提取攻击

5 Logit Bias API的提取攻击

6 从Logprob-free API中提取

7 评估

8 防御

9 未来工作

了解本专栏

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。