
Peacer的论文阅读笔记
文章平均质量分 81
越早知道,越能享受前沿技术所带来的红利
弹破庄周梦
算法工程师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
阅读论文速记 [持续更新…]
提出了一种奖励模型训练策略,不同于传统RM抛弃LM Head额外训练一个Reward Head的方式,CLoud保留LM Head并同时对两个头进行训练。感觉就是保留住Base LLM的生成能力能提升它的奖励值预测能力。和CoT思路比较像,在输出结果前先输出思考过程,思考过程有利于做出最终决策。相较于传统RM有4、5个百分点的提升。原创 2024-10-22 11:19:18 · 234 阅读 · 0 评论 -
大模型专题:与人类对齐
写这篇blog的目的是把RLHF的过程详细拆解开来,包括每一步是怎么做的,用到了什么数据集,这对后面理解PPO、DPO很有帮助。选的第一篇论文十分详细地介绍了这一过程,其中提出的InstructGPT可以说是ChatGPT的前身,前者在GPT3上做RLHF,后者在GPT3.5上做,训练框架一模一样。原创 2024-09-12 14:42:02 · 976 阅读 · 0 评论 -
大模型专题:长上下文系列(一)
YaRN是Yet another RoPE extensioN method的缩写,是对旋转位置编码(RoPE)的一种改进,目的是让LLM在推理阶段可以处理比训练阶段更长的文本。原创 2024-09-10 12:43:18 · 1294 阅读 · 1 评论