强化学习数学基础
文章平均质量分 95
小伙加油干!!
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习数学基础(七):时序差分方法
qt1statqtstat−αtstatqtstat−qˉtqt1statqtstat−αtstatqtstat−qˉt其中qˉt\bar{q}_tqˉt为TD target,不同的TD算法有不同的TD targetqˉt\bar{q}_tqˉt图10. 不同算法的TD target。原创 2025-05-15 09:07:40 · 1157 阅读 · 0 评论 -
强化学习数学基础(六):随机近似理论与随机梯度下降
在蒙特卡洛算法中,需要对stochastic episode的action value进行多次采样取平均值,从而得到该state-action pair的估计值。在上节中使用的方法为:E(x)≈xˉ=1N∑i=1NxiE(x)\approx\bar{x}=\frac{1}{N}\sum_{i=1}^{N}x_iE(x)≈xˉ=N1i=1∑Nxi这种方法的缺点是,如果采样值是按照周期性获取,这样就必须等待所有的采样值收集好后,再做平均,效率较低。因此可以采用 迭代增量式 的计算方法提高计算效率:原创 2025-05-12 18:22:39 · 1279 阅读 · 0 评论 -
强化学习数学基础(五):蒙特卡洛方法
图10. 总结。原创 2025-05-07 15:58:34 · 1040 阅读 · 0 评论 -
强化学习数学基础(四):值迭代与策略迭代
图7. 总结。原创 2025-05-02 20:04:08 · 967 阅读 · 0 评论 -
强化学习数学基础(三):贝尔曼最优公式
以问题的形式进行总结:贝尔曼最优公式(BOE)存在解吗?答:由于收缩映射定理,BOE存在解。贝尔曼最优公式的解唯一吗?答:由于收缩映射定理,BOE的解唯一。如何求解贝尔曼最优公式(BOE)?答:收缩映射定理的迭代求解法。为什么要研究贝尔曼最优公式?答:可以求解最大的状态值与最优的策略。原创 2025-04-26 23:43:19 · 1256 阅读 · 0 评论 -
强化学习数学基础(二):贝尔曼公式
概念:从不同状态出发 的return依赖于 从其他状态出发 得到的return。首先引入符号Gt,用来引入state value的概念。St→AtRt+1,St+1 S_t \xrightarrow{A_t} R_{t+1},S_{t+1}StAtRt+1,St+1上述过程可以描述为:在 St 状态下采取动作 At 得到的reward为 Rt+1,进入的下一个状态为 St+1。并且这三个量分别由概率决定。At→π(At=a∣St=s)Rt+1→p(Rt+1=r∣St=s,At=a)St+原创 2025-04-25 16:56:04 · 850 阅读 · 0 评论 -
强化学习数学基础(一):基本概念
西湖大学强化学习课内容总结原创 2025-04-02 23:08:59 · 1147 阅读 · 0 评论
分享