强化学习入门
文章平均质量分 93
N2svtewg
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习入门 第一二三章 Task01
状态空间 𝒮:环境可观测信息的全集。动作空间 𝒜:智能体可执行操作集合。转移概率 𝒫(s′∣s,a):给定 (s,a) 达到 s′ 的条件概率分布。奖励函数 ℛ(s,a,s′):执行 a 后收到的标量回馈。折扣因子 γ:调节短期与长期收益的权重,γ→1 强调远期目标。两章内容。“为什么选 RL”与“用什么数学模型描述 RL”。理论与实践隔着采样效率、函数逼近稳定性、奖励设计;实验中应持续记录参数敏感性与调试手段。原创 2025-07-16 23:42:26 · 590 阅读 · 0 评论 -
Chapter 6 深度学习基础 Task03
datawhale AI 共学。原创 2025-07-22 03:05:39 · 1054 阅读 · 0 评论 -
强化学习入门 4\5章免模型预测免模型控制 Task02
在实际项目中,常先用 TD(λ) 或 n-步 TD 获得迅速可行的价值估计,再引入函数逼近与策略优化,逐步过渡到完整控制流程。:在 λ↑ 1 时逼近 MC,在 λ=0 时回到 TD(0),形成偏差-方差调节轨。免模型:MC、TD(λ)、Sarsa、Q-learning、DQN、PPO。有模型:Dyna-Q、MuZero、PlaNet、DreamerV3。经典循环:Sarsa 中每步更新 Q = 预测;:采样完整回合,取回报平均近似 V(s)或 Q(s,a)目标:预测仅估计价值,控制需优化策略。原创 2025-07-20 00:06:52 · 929 阅读 · 0 评论
分享