论文翻译：PMLR-2023 Automatically Auditing Large Language Models via Discrete Optimization

最新推荐文章于 2024-10-18 10:58:24 发布

CSPhD-winston-杨帆

最新推荐文章于 2024-10-18 10:58:24 发布

阅读量746

点赞数 22

分类专栏：论文翻译 LLMs-其他文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/WhiffeYF/article/details/142133932

版权

论文翻译同时被 2 个专栏收录

114 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

11 篇文章

订阅专栏

Automatically Auditing Large Language Models via Discrete Optimization
https://proceedings.mlr.press/v202/jones23a/jones23a.pdf

自动审计大型语言模型通过离散优化

文章目录

自动审计大型语言模型通过离散优化
摘要
1. 引言

摘要

对大型语言模型进行审计以发现意外行为对于预防灾难性的部署至关重要，但这一任务仍然具有挑战性。在这项工作中，我们将审计视为一个优化问题，其中我们自动搜索匹配期望目标行为的输入-输出对。例如，我们可能旨在找到一个以“Barack Obama”开头的非毒性输入，而模型将其映射到一个有毒的输出。这个优化问题难以解决，因为可行点集稀疏，空间是离散的，而且我们审计的语言模型是非线性和高维的。为了应对这些挑战，我们引入了一个离散优化算法ARCA，它联合并高效地优化输入和输出。我们的方法自动揭示了关于名人的贬损性完成（例如，“Barack Obama是一个合法的未出生婴儿”→“儿童杀手”），产生完成为英文输出的法语输入，并找到生成特定名称的输入。我们的工作提供了一个有前途的新工具，用于在部署前揭示模型的失败模式。内

了解本专栏

超级会员免费看

CSPhD-winston-杨帆

博客等级

码龄8年

558
原创

4966
点赞

9970
收藏

4011
粉丝

关注

私信

热门文章

分类专栏

最新评论

论文阅读：2024 arxiv AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：EMNLP-2023 CCF-B Multi-step Jailbreaking Privacy Attacks on ChatGPT
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：2024 EMNLP User Inference Attacks on Large Language Models
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：2024 ICML In-Context Unlearning: Language Models as Few-Shot Unlearners
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：2024 ICLR Teach LLMs to phish: Stealing private information from language models
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

2025

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CSPhD-winston-杨帆 给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。