38、强化学习技术全面解析

强化学习技术全面解析

1. 强化学习概述

强化学习技术众多,可进行大致分类。主要的二分法首先存在于基于模型(Model-based)和无模型(Model-free)的强化学习技术之间。在无模型强化学习中,又可分为基于梯度(Gradient based)和无梯度(Gradient free)的方法。而在无梯度方法里,还存在基于策略(On Policy)和离策略(Off Policy)的区别。

这些技术可与函数逼近技术(如神经网络)结合,用于逼近策略 $\pi$、价值函数 $V$ 或质量函数 $Q$,使它们在高维系统中更有用。

2. 基于模型的优化与控制

2.1 动态规划

动态规划是由 Richard E. Bellman 引入的数学框架,用于解决大型多步优化问题,如决策和控制中的问题。它将大的优化问题重新表述为基于较小子问题的递归优化,依赖于 Bellman 最优性原理,即大型多步控制策略在每个子步骤序列中也必须是局部最优的。

动态规划有两种主要方法:
- 自上而下(Top down) :维护一个子问题表,解决新问题时先检查表中是否已有相关子问题的解。若有则使用,没有则求解。这种表格存储称为记忆化(memoization),对于许多问题会变得组合复杂。
- 自下而上(Bottom up) :先解决最小的子问题,然后组合这些子问题来形成更大的问题。可以看作是从每个可能的目标状态反向工作,找到到达该状态的最佳前一个动作,然后回溯两步、三步等。

动态规划虽然仍是对所有子问题的暴力搜索,但比简单的暴力搜索更有

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值