强化学习 | 课堂笔记 | 第三课 MP的便利性,随机逼近方法
最新推荐文章于 2025-12-02 20:19:19 发布
文章探讨了动态规划(DP)的基本概念,包括值函数、贝尔曼方程和最优值函数。深入介绍了ADP(ApproximateDynamicProgramming)的两种方法——价值迭代(VI)和策略迭代(PI),并讨论了ADP在满足特定条件时的应用。同时,文章提到了Q函数在决策过程中的作用,以及如何利用随机逼近方法,如增量更新和SGD(StochasticGradientDescent)来解决强化学习中的问题,特别是强调了Markov过程的平稳分布及其重要性。







1607

被折叠的 条评论
为什么被折叠?



