王树森《深度强化学习》学习笔记

最新推荐文章于 2025-01-29 10:16:55 发布

ustb_student

最新推荐文章于 2025-01-29 10:16:55 发布

阅读量456

点赞数

CC 4.0 BY-SA版权

文章标签：学习

本文链接：https://blog.youkuaiyun.com/ustb_student/article/details/129630032

马尔可夫决策过程（MDP）是强化学习的基础，涉及智能体、环境、状态、状态空间、动作空间、奖励和策略等核心概念。智能体在环境中执行动作并依据状态进行决策，接收到环境的奖励。策略定义了智能体如何选择动作，包括随机策略和确定策略。回报是累积的奖励，而折扣回报考虑了未来的奖励。价值函数如动作价值函数和状态价值函数则用来评估状态和动作的价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基本概念

马尔可夫决策过程(MDP)

智能体（agent）：强化学习的主体，由谁做动作或决策，谁就是智能体
环境（environment）：与智能体交互的对象，可以抽象的理解为交互过程中的规则或机理
状态(state)：每个时刻，环境都有一个状态，即对当前时刻环境的概括。状态是做决策的依据
状态空间（state space）：所有可能存在状态的集合
动作（action）：智能体基于当前状态所做出的决策
动作空间（action space）：所有可能动作的集合
奖励（reward）：智能体执行一个动作之后，环境返还给智能体的一个数值，由我们自己来定义
状态转移（state transition）：智能体从当前 $t$ 时刻的状态 $s$ 转移到下一个时刻状态 $s^{'}$ 的过程
状态转移概率函数（state transition probability function）：通常来说，状态转移是随机的，随机性来自于环境，我们用状态转移函数来描述状态转移
$P_t(s'|s,a)=P(S'_{t+1}=s'|S_t=s,A_t=a)$

策略

策略（policy）：根据观测到的状态（state），如何做出决策，即如何从动作空间中选取一个动作，通常分为随机策略和确定策略：
- 随机策略：把状态记作 $s$ ，动作记作 $a$ ，随即策略函数 $π(a∣s)=P(A=a∣S=s)\pi(a|s) =P(A=a|S=s)$ ,策略函数的输入是状态s和动作a，输出是一个0到1之间的概率值，可以告诉我状态空间中每个动作的概率值
- 确定策略：它把状态s作为输出，直接输出动作 $\mu(s)$ ，而不是输出概率值。对于给定的状态s，做出的决策a是确定的，没有随机性
智能体与环境交互：智能体观测到环境的状态 $s$ ，做出动作 $a$ ，动作会改变环境的状态，环境反馈给智能体奖励 $r$ 以及新的状态 $s^{'}$
回合（episodes）：智能体从游戏开始到通关或结束的过程

回报与折扣回报

回报（return）：当前时刻开始到本回合（episodes）结束的所有奖励的总和，也叫累计奖励。把 $t$ 时刻的回报记作随机变量 $U_t$ 。如果一回合游戏结束，已经观测到所有奖励，那么就把回报记作 $u_t$
$U_t = R_t+R_{t+1}+R_{t+2}+R_{t+3}+\cdots+R_{n}$
折扣回报（discounted return）:对未来的奖励做折扣

$U_t = R_t+\gamma R_{t+1}+\gamma ^{2}R_{t+2} + \cdots$

回报中的随机性：Ut的随机性来自于 $SAt,St+1,At+1,⋯Sn,AnSA_t,S_{t+1},A_{t+1}, \cdots S_n, A_n$

价值函数

动作价值函数（action-value function）:假设我们已经观测到状态 $s_t$ ，做完决策选中动作 $a_t$ ，那么 $U_t$ 的随机性来自于 $t + 1$ 时刻起的所有状态，我们对 $U_t$ 关于 $St+1,At+1,⋯Sn,AnS_{t+1},A_{t+1}, \cdots S_n, A_n$ 求条件期望，得到
$Q_{\pi}(s_t,a_t)=E_{S_{t+1},A_{t+1},\cdots ,S_n,A_n}[U_t\S_t=s_t,A_t=a_t]$
$Qπ(st,at)Q_{\pi}(s_t,a_t)$ 依赖于 $s_t和a_t$ ，而不依赖于t+1时刻之后的状态和动作；同时，由于动作 $At+1,At+2,⋯A_{t+1},A_{t+2},\cdots$ 都依赖于策略函数 $π\pi$ ，因此不同的 $π\pi$ 求出的期望也不同，所以 $Qπ(st,at)Q_{\pi}(s_t,a_t)$ 依赖于 $π\pi$

综上所述： $Qπ(st,at)Q_{\pi}(s_t,a_t)$ 依赖于 $st,at,πs_t,a_t,\pi$
最优动作价值函数（optimal action-value function）:消除策略 $π\pi$ 的影响，只评价当时状态和动作的好坏
$Q_{\star}(s_t,a_t)=\mathop{max} \limits_{\pi}\:Q_{\pi}(s_t,a_t)$

状态价值函数

状态价值函数（state-value function）:只根据当前的状态判断棋局的好坏
$V_{\pi}(s_t)=E_{A_t,S_{t+1},A_{t+1},\cdots,S_n,A_n}[U_t|S_t=s_t]$
也可以如下定义：
$V_{\pi}(s_t)=E_{A_t \sim \pi(\centerdot | s_t)}[Q_{\pi}(s_t,A_t)]=\sum _{a \in \mathcal{A}} Q_{\pi}(a|s_t) \centerdot Q_{\pi}(s_t,a)$