广立小鲁邦-优快云博客

原创采用lora 微调一个强化学习模型的代码

我们之前已经讲解过强化学习PPO算法的原理，以及我们也将讲解过我们怎么用lora微调一个reward模型。既然我们现在知道了强化学习PPO算法的原理，又已经又了一个reward 模型，那此时此刻我们是不是只要在微调一个lora的自回归模型，是不是就可以开始我们强化学习微调的过程了。

2024-09-22 20:39:27 1536 1

之前有一篇文章讲了强化学习PPO算法，算法中我们提到了Reward模型。既然需要一个reward模型，那我们应该怎么去实现了这个过程呢？这里我只是简单的用Qwen2 - 0.5b模型微调了一个lora模型。这里只是为什么要用这么小的模型呢？因为作者的机器带不动呀，而且我也只是想要走一个这个流程，熟悉一下这个reward模型怎么微调。有了入门以后，后续在进行深度优化和提升才会有更好的途径。接下来我们就从代码端一点一点的讲解一下，我是如何进行reward模型微调的。

2024-09-22 19:58:44 1944 1

原创基于代码和公式理解PPO算法实现

作者本人也是一个野生AI爱好者，仅仅只是停留在表面理解问题。本次文章打算记录一下PPO算法，算是对自己前段时间学习的一个总结方便自己后续查看。

2024-09-21 22:06:36 1970

原创 Manba模型跟着源代码来深入理解他的原理

Manba模型跟着源代码来深入理解他的原理

2024-09-08 19:21:18 5530

原创 Cassandra LCS压缩原理详解

cassandra的压缩的策略是在cassandra的守护线程cassandraDaemon类中的startUp中进行定时启动的压缩机制。CassandraDaemon setUp()中的定时启动任务ScheduledExecutors.optionalTasks.scheduleWithFixedDelay(ColumnFamilyStore.getBackgroundCompactionTaskSubmitter(), 5, 1, TimeUnit.MINUTES);从代码中可以看

2020-10-23 23:27:15 449 1

原创循环嵌套之美

for循环的嵌套顺序不一样，对于代码的运行效率完全不一样。如下面的代码：void matrixMultiply(int **a, int **b, int **c, int n){ for (int i =0; i < n; i++) for (int j = 0; j < n; j++) for (int k = 0; k < ...

2018-03-25 16:43:52 226 2

weixin_39710892的博客

原创采用lora 微调一个强化学习模型的代码

原创如何通过lora训练一个 reward模型

原创基于代码和公式理解PPO算法实现

原创 Manba模型跟着源代码来深入理解他的原理

原创 Cassandra LCS压缩原理详解

原创循环嵌套之美

空空如也

空空如也

原创 采用lora 微调一个强化学习模型的代码

原创 如何通过lora训练一个 reward模型

原创 基于代码和公式理解PPO算法实现

原创 Manba模型跟着源代码来深入理解他的原理

原创 Cassandra LCS压缩原理详解

原创 循环嵌套之美

空空如也

空空如也

原创采用lora 微调一个强化学习模型的代码

原创如何通过lora训练一个 reward模型

原创基于代码和公式理解PPO算法实现

原创循环嵌套之美