13、近似值函数：方法与实现

于 2025-08-26 13:01:51 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏：决策算法：智能选择的艺术文章标签：值函数近似动态规划局部近似

本文链接：https://blog.youkuaiyun.com/read5/article/details/152386306

决策算法：智能选择的艺术专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

近似值函数：方法与实现

1. 近似值函数概述

在处理状态空间较大的问题时，使用表格来表示值函数可能会面临内存和计算量的挑战。因此，我们需要采用近似动态规划的方法，其中值函数近似是一种有效的解决方案。通过值函数近似，我们可以在不精确求解的情况下，得到一个近似最优的策略。

1.1 参数化表示

我们使用 $U_{\theta}(s)$ 来表示值函数的参数化表示，其中 $\theta$ 是参数向量。有多种方法可以表示 $U_{\theta}(s)$，例如：
- 根据 $U_{\theta}(s)$ 提取动作：
- $\pi(s) = \arg \max_{a} \left[ R(s, a) + \gamma \sum_{s’} T(s’ | s, a) U_{\theta}(s’) \right]$
- 当状态空间连续时，上述求和可以用积分代替，积分可以通过过渡模型样本进行近似。
- 另一种方法是近似动作值函数 $Q(s, a)$，使用 $Q_{\theta}(s, a)$ 表示参数化近似，动作提取公式为：
- $\pi(s) = \arg \max_{a} Q_{\theta}(s, a)$