- 文中提到了可用的red team数据集。还提到了前人的工作中的数据集:BAD数据集、RealToxicity Prompt数据集。作者他们提出的数据集更大。
- 作者发现RLHFLM随着规模的扩大变得更难进行red team测试PlainLM、promptedLM、RS(拒绝抽样的)LM在规模上呈现平稳趋势。
- 论文用到的方法:作者开发了一个界面,指导红队成员与AI助手(应该是2中提到的4种驱动的)进行开放性对话。(每次尝试都有两次机会)作者使用这些对话作为数据集,训练一个无害性偏好的模型,以模型(2中提到的4种)生成的回应作为输入,输出一个分数(类似于对模型的有害性进行打分?)最后,作者用这个构建的模型构建了一些干预措施。
- 模型架构: https://arxiv.org/pdf/2112.00861.pdf
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned
于 2023-11-30 20:51:28 首次发布