强学学习数学原理学习（五）-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_73872315/article/details/143886880

前言

这次是值近似。。。

在强化学习中，值近似（Value Approximation）是一种用于解决大规模状态或动作空间问题的方法。对于许多现实世界的任务，状态和动作的数量过于庞大，难以用表格形式来准确表示它们的价值函数或策略。这就需要使用值近似技术来估计状态值函数（V）、动作值函数（Q）或策略（π）等。

值近似（Value Approximation）在强化学习中涉及使用数学函数来近似表示状态值函数 V(s)、动作值函数 Q(s,a) 或策略 π(a∣s)。以下是值近似的数学原理和背后涉及的概念。

值近似通常涉及使用参数化函数 fθ(s) 或fθ(s,a)，其中 θ 是参数向量，估计值函数或策略。

对于线性值近似，使用线性组合的特征来逼近值函数：

Q(s,a)≈θTϕ(s,a)

使用非线性函数，如神经网络，来逼近值函数：

神经网络逼近: 可以用神经网络表示Q函数：

Q(s,a)≈fθ(s,a)

这里，fθ 是由多个神经网络层组成的非线性函数，θ 包含所有网络的权重和偏置参数。
梯度下降法:
- 使用梯度下降法来最小化损失函数，例如均方误差损失
- 其中，θ− 表示需要更新的目标网络参数。

深度 Q 网络（Deep Q-Network, DQN）可以被视为一种利用深度学习技术的值近似方法来实现 Q-Learning 的算法。在 DQN 中，使用神经网络来近似 Q 函数，以应对存在于复杂和高维状态空间中的挑战。

神经网络作为函数逼近器：
- 在 DQN 中，使用一个深度神经网络来估计 Q 值函数。输入是当前状态 s，输出是所有可能动作 a 的 Q 值。
目标网络和主网络：
- 主网络：用于选择动作和更新 Q 值。
- 目标网络：在一定的更新步后从主网络复制，从而使得目标值的变化更加平稳，可以提高训练的稳定性。
经验重放：
- DQN 使用一个回放缓冲区存储过去的经验，将这些经验随机抽样并用于网络更新。这减少了数据间的相关性，同时增加了数据的利用率。
更新机制：
- 选择一个动作 a 使用 ϵ-贪婪策略（即大部分选择最大值动作，偶尔选择随机动作）；
- 执行动作 a，观察奖励 r 和新状态 ‘s′；
- 将经验 (s,a,r,s′) 存储到经验回放池中；
- 从回放池中随机采样批次数据 (s,a,r,s′)；
- 使用损失函数更新主网络