- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 DeepSeek 再探(二)
因为当前状态和动作会影响未来的状态和动作,进而影响整体收益。因此,更合理的设计是:t时刻总收益 = **即时收益 + 未来收益。通过在同一个问题上生成多条回答,评估彼此相关的响应组(彼此之间相互比较)来优化策略模型。具有随机性,相同的观测值未必采取相同的行动(即: 同一个问题上生成多条回答);收集到的数据用很多次,也就是可以执行梯度上升好几次,更新参数好几次。简单点介绍:引入另外一个策略。产生的收益较高,那就增大它出现的概率,否则降低它出现的概率。方法了,仔细理解下图,确保图的流程和上述公式能准确对上。
2025-03-07 18:20:07
980
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人