强化学习 RL
文章平均质量分 92
强化学习数学原理,主要《赵世钰. 强化学习的数学原理》
车队老哥记录生活
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度强化学习 DRL 基础 2:随机策略梯度方法 | 蒙特卡罗策略梯度
as∗argmaxa∈Aqsaas∗arga∈Amaxqsa其中qsaq(s,a)qsa为sss状态下不同动作的动作值πa∣s1−ϵmm−1as∗ϵmas≠as∗πa∣s1−mϵm−1mϵas∗asas∗即有1−ϵmm−11−mϵm−1的概率选择具有最大动作值的动作,原创 2026-01-07 15:25:59 · 483 阅读 · 0 评论 -
深度强化学习 DRL 基础 1:值函数 近似 贝尔曼方程 | 从 Q-learning 到 DQN
使用如一一对应的表格记录 状态/动作 和 价值 的关系仅适用于离散低纬度场景,针对高纬度以及连续空间的场景,可通过引入函数来进行描述,函数可通过较少的参数来描述高纬度的连续状态;同时随着深度学习的发展,通过深度网络来作为值函数或策略函数的深度强化学习也应运而生。原创 2026-01-07 15:18:54 · 974 阅读 · 0 评论 -
强化学习 RL 基础 4:随机近似求解贝尔曼方程 | 从 时序差分 到 Q-learning
本文内容主要参考《赵世钰. 强化学习的数学原理》 整理编写,属于个人学习笔记,详细内容请参见教材,致谢 赵世钰 老师。原创 2025-12-26 12:46:54 · 687 阅读 · 0 评论 -
强化学习 RL 基础 3:随机近似方法 | 梯度下降
本文内容主要参考《赵世钰. 强化学习的数学原理》 整理编写,本文也加入了许多自己的认识,详细内容请参见教材,致谢 赵世钰 老师 和 GPT。gω0(1.1)gω01.1当输入ω\omegaωgωηgωηgωηgωη其中η\etaη为观测噪声。ωk1ωk−αkgωkηk(1.2)ωk1ωk−αkgωkηk1.2当满足以下条件时,ωk\omega_{k}ωk。原创 2025-12-26 12:32:51 · 760 阅读 · 0 评论 -
强化学习 RL 基础 2:从贝尔曼方程到策略求解
本文内容主要参考《赵世钰. 强化学习的数学原理》 整理编写,属于个人学习笔记,详细内容请参见教材,致谢 赵世钰 老师。原创 2025-12-24 20:49:23 · 763 阅读 · 0 评论 -
强化学习 RL 基础 1:马尔科夫决策过程 MDP 与 贝尔曼方程
本文内容主要参考《赵世钰. 强化学习的数学原理》 整理编写,属于个人学习笔记,详细内容请参见教材,致谢 赵世钰 老师。强化学习(Reinforcement learning,RL):如何基于环境而行动,以取得最大化的回报。如何定义智能体与环境的交互,就依赖于马尔科夫决策过程(Markov decision process,MDP)。原创 2025-12-24 19:49:09 · 814 阅读 · 0 评论
分享