自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 阅读论文速记 [持续更新…]

提出了一种奖励模型训练策略,不同于传统RM抛弃LM Head额外训练一个Reward Head的方式,CLoud保留LM Head并同时对两个头进行训练。感觉就是保留住Base LLM的生成能力能提升它的奖励值预测能力。和CoT思路比较像,在输出结果前先输出思考过程,思考过程有利于做出最终决策。相较于传统RM有4、5个百分点的提升。

2024-10-22 11:19:18 217 1

原创 大模型专题:与人类对齐

写这篇blog的目的是把RLHF的过程详细拆解开来,包括每一步是怎么做的,用到了什么数据集,这对后面理解PPO、DPO很有帮助。选的第一篇论文十分详细地介绍了这一过程,其中提出的InstructGPT可以说是ChatGPT的前身,前者在GPT3上做RLHF,后者在GPT3.5上做,训练框架一模一样。

2024-09-12 14:42:02 942 1

原创 大模型专题:长上下文系列(一)

YaRN是Yet another RoPE extensioN method的缩写,是对旋转位置编码(RoPE)的一种改进,目的是让LLM在推理阶段可以处理比训练阶段更长的文本。

2024-09-10 12:43:18 1216 2

原创 python破解email-protected(爬虫那点事)

爬取加密邮箱

2022-07-28 12:16:16 4013 1

原创 数组与函数(C/C++)

数组与函数(C/C++)一维数组首先要明确一维数组的数组名并不是一个指针:int a[] = {1,2,3,4};int *p;cout<<"数组名a的类型为\t"<<typeid(a).name()<<endl;cout<<"指针p的类型为\t"<<typeid(p).name()<<endl;p = a;cout<<"赋值后指针p的类型为\t"<<typeid(p).name()<&

2022-02-28 13:14:47 755

原创 卡尔曼滤波器(思路整理,算法推导)

卡尔曼滤波器(思路整理,算法推导)知乎好文:卡尔曼滤波首先定义好各个变量:状态的最优估计值:x^t−1,x^t\hat{x}_{t-1}, \hat{x}_{t}x^t−1​,x^t​状态的预测值:x^t−\hat{x}^{-}_{t}x^t−​状态的真实值:xt−1,xt{x}_{t-1}, x_{t}xt−1​,xt​状态的观测值:ztz_{t}zt​状态转移矩阵:FFF控制输入矩阵:BBB控制变量:utu_{t}ut​卡尔曼增益:KKK状态观测矩阵:HHH状态转移过程噪声:

2022-02-19 23:22:36 983

原创 弗雷歇距离的原理及python代码实现(动态规划)

弗雷歇距离的原理及python代码实现(动态规划)在网上看了很多关于弗雷歇距离的介绍,结合自己的理解,出一版更通俗易懂、更清晰具体的解释。最简单的解释自然是最短狗绳长度,但我将从另一个角度来解释它。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传图中人牵着狗在走,人走直线,狗走得自由且散漫。为了能拴住狗,任何时刻狗绳的长度都应该大于人狗距离,于是有最短狗绳长度等于最大人狗距离。现在我们假定==人只能走蓝色轨道,狗只能走红色轨道且都只能向前走,但是具体怎么走——中途停不停、走多快

2021-08-10 00:00:05 5933 8

原创 pip安装torch0.4.1找不到版本的问题解决

pip安装torch0.4.1找不到版本的问题解决个人学习记录在用pip安装torch时遇到找不到版本的问题:pip install torch==0.4.1试过一些方法,如更新pip,指定pip版本等,均无法解决问题。最后解决方案如下:直接进pytorch官网查看所有已发布的torch版本,可以看到是有0.4.1版本的:选择对应的版本下载即可,可以下好后再安装:pip install E:\Thunder\torch-0.4.1-cp36-cp36m-win_amd64.whl

2021-05-15 14:22:29 2641 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除