大模型-微调与对齐-人类对齐背景与标准

1、目的

确保大模型的行为与人类价值观、人类真实意图和社会伦理相一致

2、大模型有害行为
  • 无法正确遵循指令
  • 生成虚假信息
  • 产生有害、有误导性、有偏见的表达
3、评估标准
  • 有用性
  • 诚实性
  • 无害性
4、更细化的对齐标准
  • 行为对齐:要求AI能够做出符合人类期望的行为
  • 意图对齐:要求AI能够与人类意图对齐
  • 道德对齐:要求AI避免设计非法、不道德、有害的话题,在回应中优先考虑用户安全、道德准确性和行为边界
5、人类对齐方法
  • 基于人类反馈的强化学习
  • 监督微调
  • 红队攻击
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值