- 博客(3)
- 收藏
- 关注
原创 大模型训练流程
因为,评分模型代表了人类的意志,所以,在评分模型指导下,借助PPO训练的大模型,就实现了与人类意志的对齐。他的核心思想是,当前步骤的收益,和未来步骤的收益,都对当前的决策产生影响。核心思想是,强化学习的智能体在做一系列决策的时候,每一步的决策,都会获得环境的反馈,也就是环境给出的评分。第一步,是SFT训练,也就是模型的预训练过程,此时训练完的模型,已经具备了,大模型通用领域的所有能力。一种可行的办法是,采取贪心法则,在每一步做决策的时候,只看当前一步的最大收益,但是,这样做也有漏洞。
2025-06-25 10:25:15
585
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1