- 博客(8)
- 收藏
- 关注
原创 阅读论文速记 [持续更新…]
提出了一种奖励模型训练策略,不同于传统RM抛弃LM Head额外训练一个Reward Head的方式,CLoud保留LM Head并同时对两个头进行训练。感觉就是保留住Base LLM的生成能力能提升它的奖励值预测能力。和CoT思路比较像,在输出结果前先输出思考过程,思考过程有利于做出最终决策。相较于传统RM有4、5个百分点的提升。
2024-10-22 11:19:18
217
1
原创 大模型专题:与人类对齐
写这篇blog的目的是把RLHF的过程详细拆解开来,包括每一步是怎么做的,用到了什么数据集,这对后面理解PPO、DPO很有帮助。选的第一篇论文十分详细地介绍了这一过程,其中提出的InstructGPT可以说是ChatGPT的前身,前者在GPT3上做RLHF,后者在GPT3.5上做,训练框架一模一样。
2024-09-12 14:42:02
942
1
原创 大模型专题:长上下文系列(一)
YaRN是Yet another RoPE extensioN method的缩写,是对旋转位置编码(RoPE)的一种改进,目的是让LLM在推理阶段可以处理比训练阶段更长的文本。
2024-09-10 12:43:18
1216
2
原创 数组与函数(C/C++)
数组与函数(C/C++)一维数组首先要明确一维数组的数组名并不是一个指针:int a[] = {1,2,3,4};int *p;cout<<"数组名a的类型为\t"<<typeid(a).name()<<endl;cout<<"指针p的类型为\t"<<typeid(p).name()<<endl;p = a;cout<<"赋值后指针p的类型为\t"<<typeid(p).name()<&
2022-02-28 13:14:47
755
原创 卡尔曼滤波器(思路整理,算法推导)
卡尔曼滤波器(思路整理,算法推导)知乎好文:卡尔曼滤波首先定义好各个变量:状态的最优估计值:x^t−1,x^t\hat{x}_{t-1}, \hat{x}_{t}x^t−1,x^t状态的预测值:x^t−\hat{x}^{-}_{t}x^t−状态的真实值:xt−1,xt{x}_{t-1}, x_{t}xt−1,xt状态的观测值:ztz_{t}zt状态转移矩阵:FFF控制输入矩阵:BBB控制变量:utu_{t}ut卡尔曼增益:KKK状态观测矩阵:HHH状态转移过程噪声:
2022-02-19 23:22:36
983
原创 弗雷歇距离的原理及python代码实现(动态规划)
弗雷歇距离的原理及python代码实现(动态规划)在网上看了很多关于弗雷歇距离的介绍,结合自己的理解,出一版更通俗易懂、更清晰具体的解释。最简单的解释自然是最短狗绳长度,但我将从另一个角度来解释它。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传图中人牵着狗在走,人走直线,狗走得自由且散漫。为了能拴住狗,任何时刻狗绳的长度都应该大于人狗距离,于是有最短狗绳长度等于最大人狗距离。现在我们假定==人只能走蓝色轨道,狗只能走红色轨道且都只能向前走,但是具体怎么走——中途停不停、走多快
2021-08-10 00:00:05
5933
8
原创 pip安装torch0.4.1找不到版本的问题解决
pip安装torch0.4.1找不到版本的问题解决个人学习记录在用pip安装torch时遇到找不到版本的问题:pip install torch==0.4.1试过一些方法,如更新pip,指定pip版本等,均无法解决问题。最后解决方案如下:直接进pytorch官网查看所有已发布的torch版本,可以看到是有0.4.1版本的:选择对应的版本下载即可,可以下好后再安装:pip install E:\Thunder\torch-0.4.1-cp36-cp36m-win_amd64.whl
2021-05-15 14:22:29
2641
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人