强化学习（Reinforcement Learning, RL）中的动作价值函数（Action-Value Function）

原创

已于 2025-05-06 13:11:20 修改 · 950 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #强化学习

于 2025-05-01 21:31:28 首次发布

1. 什么是强化学习？（背景铺垫）

在深入动作价值函数之前，我们先简单回顾一下强化学习的核心框架，这有助于你理解动作价值函数的上下文。

强化学习的目标是让一个智能体通过试错学习如何在环境中做出最优决策。强化学习的基本要素包括：

智能体（Agent）：决策者，比如一个玩游戏的AI。
环境（Environment）：智能体交互的对象，比如游戏世界。
状态（State, $s$ ）：描述环境在某一时刻的情况，比如游戏中角色的位置。
动作（Action, $a$ ）：智能体可以采取的行为，比如“向左走”或“跳跃”。
奖励（Reward, $r$ ）：环境根据智能体的动作给出的反馈，比如得分或惩罚。
策略（Policy, $π\pi$ ）：智能体根据状态选择动作的规则，记为 $π(a∣s)\pi(a|s)$ ，表示在状态 $s$ 下选择动作 $a$ 的概率。
回报（Return, $G$ ）：智能体从某时刻开始获得的累积奖励，通常是未来奖励的加权和。

强化学习的最终目标是找到一个最优策略 $π∗\pi^*$ ，使得智能体在长期交互中获得的 期望累积奖励（Expected Return） 最大化。

2. 动作价值函数的定义

动作价值函数（Action-Value Function），通常记为 $Q (s, a)$ ，是强化学习中用来评估“在某个状态下采取某个动作的长期价值”的函数。简单来说，它告诉你：如果我在状态 $s$ 下选择了动作 $a$ ，然后按照某个策略 $π\pi$ 继续行动，未来能获得的期望累积奖励是多少？

数学定义

动作价值函数 $Qπ(s,a)Q^\pi(s, a)$ 的定义如下：

$Qπ(s,a)=Eπ[Gt∣St=s,At=a]Q^\pi(s, a) = \mathbb{E}_\pi \left[ G_t \mid S_t = s, A_t = a \right]$

$G_t$ ：从时刻 $t$ 开始的累积回报，通常定义为未来奖励的折扣和：

$Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots = \sum_{k=0}^\infty \gamma^k R_{t+k+1}$

其中：

$R_{t+k+1}$ 是时刻 $t + k + 1$ 的奖励。
$γ∈[0,1]\gamma \in [0, 1]$ 是折扣因子，表示未来奖励的重要性（ $γ=0\gamma = 0$ 只考虑即时奖励， $γ=1\gamma = 1$ 完全考虑所有未来奖励）。
$Eπ\mathbb{E}_\pi$ ：表示按照策略 $π\pi$ 行动时的期望。
$S_t = s, A_t = a$ ：表示在时刻 $t$ ，智能体处于状态 $s$ ，并选择了动作 $a$ 。