- 博客(6)
- 收藏
- 关注
原创 采用lora 微调一个强化学习模型的代码
我们之前已经讲解过强化学习PPO算法的原理,以及我们也将讲解过我们怎么用lora微调一个reward模型。既然我们现在知道了强化学习PPO算法的原理,又已经又了一个reward 模型,那此时此刻我们是不是只要在微调一个lora的自回归模型,是不是就可以开始我们强化学习微调的过程了。
2024-09-22 20:39:27
1536
1
原创 如何通过lora训练一个 reward模型
之前有一篇文章讲了强化学习PPO算法,算法中我们提到了Reward模型。既然需要一个reward模型,那我们应该怎么去实现了这个过程呢?这里我只是简单的用Qwen2 - 0.5b模型微调了一个lora模型。这里只是为什么要用这么小的模型呢?因为作者的机器带不动呀,而且我也只是想要走一个这个流程,熟悉一下这个reward模型怎么微调。有了入门以后,后续在进行深度优化和提升才会有更好的途径。接下来我们就从代码端一点一点的讲解一下,我是如何进行reward模型微调的。
2024-09-22 19:58:44
1944
1
原创 基于代码和公式理解PPO算法实现
作者本人也是一个野生AI爱好者,仅仅只是停留在表面理解问题。本次文章打算记录一下PPO算法,算是对自己前段时间学习的一个总结方便自己后续查看。
2024-09-21 22:06:36
1970
原创 Cassandra LCS压缩原理详解
cassandra的压缩的策略是在cassandra的守护线程cassandraDaemon类中的startUp中进行定时启动的压缩机制。CassandraDaemon setUp()中的定时启动任务ScheduledExecutors.optionalTasks.scheduleWithFixedDelay(ColumnFamilyStore.getBackgroundCompactionTaskSubmitter(), 5, 1, TimeUnit.MINUTES);从代码中可以看
2020-10-23 23:27:15
449
1
原创 循环嵌套之美
for循环的嵌套顺序不一样,对于代码的运行效率完全不一样。如下面的代码:void matrixMultiply(int **a, int **b, int **c, int n){ for (int i =0; i < n; i++) for (int j = 0; j < n; j++) for (int k = 0; k < ...
2018-03-25 16:43:52
226
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅