论文翻译:PMLR-2023 Automatically Auditing Large Language Models via Discrete Optimization

Automatically Auditing Large Language Models via Discrete Optimization
https://proceedings.mlr.press/v202/jones23a/jones23a.pdf

自动审计大型语言模型通过离散优化

摘要

对大型语言模型进行审计以发现意外行为对于预防灾难性的部署至关重要,但这一任务仍然具有挑战性。在这项工作中,我们将审计视为一个优化问题,其中我们自动搜索匹配期望目标行为的输入-输出对。例如,我们可能旨在找到一个以“Barack Obama”开头的非毒性输入,而模型将其映射到一个有毒的输出。这个优化问题难以解决,因为可行点集稀疏,空间是离散的,而且我们审计的语言模型是非线性和高维的。为了应对这些挑战,我们引入了一个离散优化算法ARCA,它联合并高效地优化输入和输出。我们的方法自动揭示了关于名人的贬损性完成(例如,“Barack Obama是一个合法的未出生婴儿”→“儿童杀手”),产生完成为英文输出的法语输入,并找到生成特定名称的输入。我们的工作提供了一个有前途的新工具,用于在部署前揭示模型的失败模式。内

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值