自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 采用lora 微调一个强化学习模型的代码

我们之前已经讲解过强化学习PPO算法的原理,以及我们也将讲解过我们怎么用lora微调一个reward模型。既然我们现在知道了强化学习PPO算法的原理,又已经又了一个reward 模型,那此时此刻我们是不是只要在微调一个lora的自回归模型,是不是就可以开始我们强化学习微调的过程了。

2024-09-22 20:39:27 1536 1

原创 如何通过lora训练一个 reward模型

之前有一篇文章讲了强化学习PPO算法,算法中我们提到了Reward模型。既然需要一个reward模型,那我们应该怎么去实现了这个过程呢?这里我只是简单的用Qwen2 - 0.5b模型微调了一个lora模型。这里只是为什么要用这么小的模型呢?因为作者的机器带不动呀,而且我也只是想要走一个这个流程,熟悉一下这个reward模型怎么微调。有了入门以后,后续在进行深度优化和提升才会有更好的途径。接下来我们就从代码端一点一点的讲解一下,我是如何进行reward模型微调的。

2024-09-22 19:58:44 1944 1

原创 基于代码和公式理解PPO算法实现

作者本人也是一个野生AI爱好者,仅仅只是停留在表面理解问题。本次文章打算记录一下PPO算法,算是对自己前段时间学习的一个总结方便自己后续查看。

2024-09-21 22:06:36 1970

原创 Manba模型跟着源代码来深入理解他的原理

Manba模型跟着源代码来深入理解他的原理

2024-09-08 19:21:18 5530

原创 Cassandra LCS压缩原理详解

cassandra的压缩的策略是在cassandra的守护线程cassandraDaemon类中的startUp中进行定时启动的压缩机制。CassandraDaemon setUp()中的定时启动任务ScheduledExecutors.optionalTasks.scheduleWithFixedDelay(ColumnFamilyStore.getBackgroundCompactionTaskSubmitter(), 5, 1, TimeUnit.MINUTES);从代码中可以看

2020-10-23 23:27:15 449 1

原创 循环嵌套之美

for循环的嵌套顺序不一样,对于代码的运行效率完全不一样。如下面的代码:void matrixMultiply(int **a, int **b, int **c, int n){ for (int i =0; i < n; i++) for (int j = 0; j < n; j++) for (int k = 0; k < ...

2018-03-25 16:43:52 226 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除