
大模型
苏鱼鱼的小鱼儿
cv方向等,学习笔记
展开
-
【deepseek学习】Top-k Top-p Temperature如何调整
在调整 Top-k、Top-p 和 Temperature 参数时,需要根据具体的任务需求和生成目标来灵活设置。原创 2025-02-18 16:54:21 · 1305 阅读 · 0 评论 -
【deepseek学习】- GRPO算法中的Rollout参数设计
rollout 参数主要用于控制策略模型在采样过程中的行为,具体来说,它决定了在每个问题上生成多少个候选输出(即 rollout 数量)。这些候选输出会被奖励模型(reward model)打分,并用于后续的策略更新。原创 2025-02-18 13:57:59 · 491 阅读 · 0 评论