强化学习技术全面解析
1. 强化学习概述
强化学习技术众多,可进行大致分类。主要的二分法首先存在于基于模型(Model-based)和无模型(Model-free)的强化学习技术之间。在无模型强化学习中,又可分为基于梯度(Gradient based)和无梯度(Gradient free)的方法。而在无梯度方法里,还存在基于策略(On Policy)和离策略(Off Policy)的区别。
这些技术可与函数逼近技术(如神经网络)结合,用于逼近策略 $\pi$、价值函数 $V$ 或质量函数 $Q$,使它们在高维系统中更有用。
2. 基于模型的优化与控制
2.1 动态规划
动态规划是由 Richard E. Bellman 引入的数学框架,用于解决大型多步优化问题,如决策和控制中的问题。它将大的优化问题重新表述为基于较小子问题的递归优化,依赖于 Bellman 最优性原理,即大型多步控制策略在每个子步骤序列中也必须是局部最优的。
动态规划有两种主要方法:
- 自上而下(Top down) :维护一个子问题表,解决新问题时先检查表中是否已有相关子问题的解。若有则使用,没有则求解。这种表格存储称为记忆化(memoization),对于许多问题会变得组合复杂。
- 自下而上(Bottom up) :先解决最小的子问题,然后组合这些子问题来形成更大的问题。可以看作是从每个可能的目标状态反向工作,找到到达该状态的最佳前一个动作,然后回溯两步、三步等。
动态规划虽然仍是对所有子问题的暴力搜索,但比简单的暴力搜索更有
超级会员免费看
订阅专栏 解锁全文
5555

被折叠的 条评论
为什么被折叠?



