Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned

  1. 文中提到了可用的red team数据集。还提到了前人的工作中的数据集:BAD数据集、RealToxicity Prompt数据集。作者他们提出的数据集更大。
  2. 作者发现RLHFLM随着规模的扩大变得更难进行red team测试PlainLM、promptedLM、RS(拒绝抽样的)LM在规模上呈现平稳趋势。
  3. 论文用到的方法:作者开发了一个界面,指导红队成员与AI助手(应该是2中提到的4种驱动的)进行开放性对话。(每次尝试都有两次机会)作者使用这些对话作为数据集,训练一个无害性偏好的模型,以模型(2中提到的4种)生成的回应作为输入,输出一个分数(类似于对模型的有害性进行打分?)最后,作者用这个构建的模型构建了一些干预措施。
  4. 模型架构: https://arxiv.org/pdf/2112.00861.pdf

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值