一文讲清DeepSeeK R1 的来龙去脉(无公式版)
此步骤是最耗费时间、计算资源的一个环节,通常需要上千万美元,几月的时间训练完成,涉及到大规模分布式训练的工程技术,因此,一般只有大厂才能训。其次,在SFT阶段,需要人大量编写理想的回应,但是一些创造性工作就难以写,相比之下,RLHF不需要写,只需要order,这个就比较简单。此过程可以理解为微调模型,提高模型的泛化能力,其核心思想就是在给定答案的基础上,让模型练习,找到最佳解决方案,这就是RL的训练的核心思想,非常简单。人类给出好笑的等级,让模型自己打分,然后建立损失函数,优化“奖励模型”。
原创
2025-03-20 17:14:29 ·
965 阅读 ·
0 评论