- 博客(7)
- 收藏
- 关注
原创 大模型对齐税是什么
RLHF 通过“扼杀可能性”(降低多样性),将模型强行收敛到一种“最稳妥、最普适”的回答范式上。这种范式虽然无聊(多样性低),但因为它极其稳健,所以能应付各种没见过的怪问题(OOD泛化强)。我们得到了一个更听话、更鲁棒的助手,但失去了一个甚至可能更有趣的灵魂。针对“对齐税”(Alignment Tax)导致的多样性(Diversity)丧失问题,学术界和工业界目前并没有一个“彻底根除”的魔法,但有一系列缓解策略。这些方法试图在RLHF的奖励最大化(高分)和SFT的原始分布(多样性)之间找到更好的平衡。
2025-11-25 13:28:52
705
原创 大模型sft和rl区别和效果对比
让模型学会说话(懂语法、有知识)。让模型学会听话(懂指令、懂格式)。没有SFT,直接上RL通常会失败,因为模型如果连话都说不通顺,根本无法探索出高分答案。SFT 提供了 RL 的“冷启动”基础。让模型变得更聪明、更安全、更符合人类喜好。它是在 SFT 的基础上进行“抛光”和“提纯”。一句话总结区别:SFT 决定了模型“能不能”回答问题(可用性),RL 决定了模型回答得“好不好”(好用性/对齐)。
2025-11-25 12:50:47
728
原创 大模型强化学习算法
特性维度PPODPOGRPOGSPO核心思想限制策略更新幅度,稳定训练直接从偏好数据中学习,无需奖励模型移除价值网络,使用组内相对奖励计算优势序列级优化,解决 GRPO 的不稳定性优化目标最大化(被裁剪的)优势函数直接匹配人类偏好概率最大化组内相对优势最大化序列级组内相对优势模型需求策略、价值、奖励、参考模型策略、参考模型策略、参考模型、奖励函数策略、参考模型、奖励函数数据依赖需要奖励模型评分数据需要高质量的成对偏好数据需要奖励函数(或规则)评分需要奖励函数(或规则)评分。
2025-10-21 21:10:15
409
原创 搜索引擎背后到底隐藏了什么不为人知的的秘密---GFS
搜索引擎背后到底隐藏了什么不为人知的的秘密—GFS搜索功能大家肯定都接触过,在浏览器上查询资料、在淘宝上找漂亮衣服、微信搜索去找资源等等,现在的我们都已经习惯了搜索功能的存在,可是在如今的社会,所有的事物都在互联网上连接起来,随着社会的不断发展,新鲜事物不断涌出,海量的数据不断累积,从2G网络到5G网络,存储大小也从我们最开始认识的KB(千字节)慢慢发展到MB、GB、TB甚至PB、EB(1PB=1000TB,1EB=1000PB),面对如此之大的数据,搜索引擎怎么存储的下,甚至很快的就对客户的搜索要求做出
2021-08-03 18:03:01
1560
4
原创 画图板1---界面的制作
今天先简单构造一下画图板的界面先看看我们要做成什么样子开始吧 public void initUI() { JFrame jf = new JFrame("zyz的画图板"); jf.setDefaultCloseOperation(JFrame.EXIT_ON_CLOSE); jf.setSize(800,500); jf.setLocationRelativeT...
2019-11-08 18:45:06
368
原创 Java学习第一次课-----类与对象
Java学习第一次课-----类与对象首先,关于类与对象的定义------类:一些具有相同属性,行为方法,功能的对象的模板。 例如一张椅子,一个人,一瓶水……------对象:一个具体的事物 例如:学生,老师,电脑,游戏等等。------属性与方法:对象都有大小,形状,颜色等等特征,这称之为属性,他们的动作,比如学习,运动,玩游戏等等,称之为方法(一般静物不考虑方法)。PS:...
2019-10-18 17:14:29
837
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅