53、复杂环境决策中的强化学习算法解析

青柠汽水308

于 2025-11-17 12:52:01 发布

阅读量7

点赞数

CC 4.0 BY-SA版权

分类专栏：掌握Python机器学习文章标签：强化学习贝尔曼方程动态规划

本文链接：https://blog.youkuaiyun.com/solidity8miner/article/details/155049171

掌握Python机器学习专栏收录该内容

56 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

复杂环境决策中的强化学习算法解析

1. 贝尔曼方程推导

在深入探讨强化学习（RL）算法之前，我们先简要回顾一下贝尔曼方程的推导，它可用于策略评估。贝尔曼方程是许多强化学习算法的核心要素之一，它简化了价值函数的计算，避免了对多个时间步的求和，而是采用类似于计算回报的递归方式。

基于总回报的递归方程 $G_t = r + \gamma G_{t+1}$，我们可以将价值函数重写为：
- 状态价值函数：
- $v_{\pi}(s) \triangleq E_{\pi}[G_t|S_t = s] = E_{\pi}[r + \gamma G_{t+1}|S_t = s] = r + \gamma E_{\pi}[G_{t+1}|S_t = s]$
- 由于即时奖励 $r$ 在时间 $t$ 是已知常量，所以可以从期望中提出。
- 动作价值函数：
- $q_{\pi}(s, a) \triangleq E_{\pi}[G_t|S_t = s, A_t = a] = E_{\pi}[r + \gamma G_{t+1}|S_t = s, A_t = a] = r + \gamma E_{\pi}[G_{t+1}|S_t = s, A_t = a]$

我们可以利用环境动态，通过对下一个状态 $s’$ 的所有概率和相应奖励 $r$ 求和来计算期望：
$v_{\pi}(s) = \sum_{a \in \hat{A}} \pi(a|s) \sum_{s’ \in \hat{S}, r’ \in \hat{R}} p(s’, r’|s, a) [r’ + \gamma E_{\pi}[G_{t+1}|S_{t+1} = s’]]$