Automatically Auditing Large Language Models via Discrete Optimization
https://proceedings.mlr.press/v202/jones23a/jones23a.pdf
自动审计大型语言模型通过离散优化
文章目录
摘要
对大型语言模型进行审计以发现意外行为对于预防灾难性的部署至关重要,但这一任务仍然具有挑战性。在这项工作中,我们将审计视为一个优化问题,其中我们自动搜索匹配期望目标行为的输入-输出对。例如,我们可能旨在找到一个以“Barack Obama”开头的非毒性输入,而模型将其映射到一个有毒的输出。这个优化问题难以解决,因为可行点集稀疏,空间是离散的,而且我们审计的语言模型是非线性和高维的。为了应对这些挑战,我们引入了一个离散优化算法ARCA,它联合并高效地优化输入和输出。我们的方法自动揭示了关于名人的贬损性完成(例如,“Barack Obama是一个合法的未出生婴儿”→“儿童杀手”),产生完成为英文输出的法语输入,并找到生成特定名称的输入。我们的工作提供了一个有前途的新工具,用于在部署前揭示模型的失败模式。内