自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 大模型训练流程

因为,评分模型代表了人类的意志,所以,在评分模型指导下,借助PPO训练的大模型,就实现了与人类意志的对齐。他的核心思想是,当前步骤的收益,和未来步骤的收益,都对当前的决策产生影响。核心思想是,强化学习的智能体在做一系列决策的时候,每一步的决策,都会获得环境的反馈,也就是环境给出的评分。第一步,是SFT训练,也就是模型的预训练过程,此时训练完的模型,已经具备了,大模型通用领域的所有能力。一种可行的办法是,采取贪心法则,在每一步做决策的时候,只看当前一步的最大收益,但是,这样做也有漏洞。

2025-06-25 10:25:15 585

原创 PCA降维底层逻辑

以下代码包含所有详细思路。

2023-11-17 13:12:03 379

原创 Anaconda Navigator 主界面闪退无法启动 jupyter notebook 打不开

重装Anaconda可以解决。

2023-11-12 19:14:07 594 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除