大模型-微调与对齐-人类对齐背景与标准

最新推荐文章于 2025-05-18 20:17:36 发布

一个研究技术、玄学、金融的干过码农的人

最新推荐文章于 2025-05-18 20:17:36 发布

阅读量295

点赞数 1

分类专栏：大模型文章标签：人工智能大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sgliquangang/article/details/143600641

版权

大模型专栏收录该内容

33 篇文章

订阅专栏

1、目的

确保大模型的行为与人类价值观、人类真实意图和社会伦理相一致

2、大模型有害行为

无法正确遵循指令
生成虚假信息
产生有害、有误导性、有偏见的表达

3、评估标准

有用性
诚实性
无害性

4、更细化的对齐标准

行为对齐：要求AI能够做出符合人类期望的行为
意图对齐：要求AI能够与人类意图对齐
道德对齐：要求AI避免设计非法、不道德、有害的话题，在回应中优先考虑用户安全、道德准确性和行为边界

5、人类对齐方法

基于人类反馈的强化学习
监督微调
红队攻击

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。