LittleWhiteFat-优快云博客

原创大模型训练流程

因为，评分模型代表了人类的意志，所以，在评分模型指导下，借助PPO训练的大模型，就实现了与人类意志的对齐。他的核心思想是，当前步骤的收益，和未来步骤的收益，都对当前的决策产生影响。核心思想是，强化学习的智能体在做一系列决策的时候，每一步的决策，都会获得环境的反馈，也就是环境给出的评分。第一步，是SFT训练，也就是模型的预训练过程，此时训练完的模型，已经具备了，大模型通用领域的所有能力。一种可行的办法是，采取贪心法则，在每一步做决策的时候，只看当前一步的最大收益，但是，这样做也有漏洞。

2025-06-25 10:25:15 587

原创 PCA降维底层逻辑

以下代码包含所有详细思路。

2023-11-17 13:12:03 379

原创 Anaconda Navigator 主界面闪退无法启动 jupyter notebook 打不开

重装Anaconda可以解决。

2023-11-12 19:14:07 594 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 大模型训练流程

原创 PCA降维底层逻辑

原创 Anaconda Navigator 主界面闪退无法启动 jupyter notebook 打不开

空空如也

空空如也

原创大模型训练流程