53、复杂环境决策中的强化学习算法解析

复杂环境决策中的强化学习算法解析

1. 贝尔曼方程推导

在深入探讨强化学习(RL)算法之前,我们先简要回顾一下贝尔曼方程的推导,它可用于策略评估。贝尔曼方程是许多强化学习算法的核心要素之一,它简化了价值函数的计算,避免了对多个时间步的求和,而是采用类似于计算回报的递归方式。

基于总回报的递归方程 $G_t = r + \gamma G_{t+1}$,我们可以将价值函数重写为:
- 状态价值函数:
- $v_{\pi}(s) \triangleq E_{\pi}[G_t|S_t = s] = E_{\pi}[r + \gamma G_{t+1}|S_t = s] = r + \gamma E_{\pi}[G_{t+1}|S_t = s]$
- 由于即时奖励 $r$ 在时间 $t$ 是已知常量,所以可以从期望中提出。
- 动作价值函数:
- $q_{\pi}(s, a) \triangleq E_{\pi}[G_t|S_t = s, A_t = a] = E_{\pi}[r + \gamma G_{t+1}|S_t = s, A_t = a] = r + \gamma E_{\pi}[G_{t+1}|S_t = s, A_t = a]$

我们可以利用环境动态,通过对下一个状态 $s’$ 的所有概率和相应奖励 $r$ 求和来计算期望:
$v_{\pi}(s) = \sum_{a \in \hat{A}} \pi(a|s) \sum_{s’ \in \hat{S}, r’ \in \hat{R}} p(s’, r’|s, a) [r’ + \gamma E_{\pi}[G_{t+1}|S_{t+1} = s’]]$

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值