【从RL到DRL】深度强化学习基础（一）——基本概念、价值学习（DQN与TD算法）、策略学习与策略梯度

最新推荐文章于 2025-11-05 14:52:35 发布

原创

最新推荐文章于 2025-11-05 14:52:35 发布 · 1.6k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #算法 #python #机器学习

本文深入探讨强化学习的基础概念，包括概率论基础知识回顾、强化学习的基本元素如状态与动作等，详细解析价值学习与策略学习的核心原理。介绍了Deep Q-Network (DQN) 和 Temporal Difference Learning (TD) 等关键算法，以及策略梯度方法。

强化学习基本

概率论知识回顾

随机变量 ：一个变量，其值取决于随机事件的结果。大写字母X代表随机变量。小写字母x表示一个观测值
概率密度函数（PDF） ：意味着随机变量在某个确定的取值点附近取值的可能性。对于连续分布，随机变量的概率密度函数积分等于1，如果是离散分布，随机变量的离散概率值求和等于1。
期望：对于连续分布与离散分布的变量，其期望表达式分别为：在这里插入图片描述
随机抽样 ：在python中，可以通过numpy库中的函数实现快速抽样：

from numpy.random import choice
samples = choice(['R','G','B'],size = 100,p = [0.2,0.5,0.3])
print(samples)

专用术语

状态（State） 和 动作（action）
策略函数π(Policy) 与 奖励(Reward):
状态转移(State transition): old state -- action --> new state,状态转移可以是随机的，随机性来自于环境(environment)
Agent与环境：
Return（U） & Reward（R）：return是未来回报的加和
理解价值函数(Value Functions):
- 动作价值函数：对于策略π，动作价值函数评估了当agent处在状态s时，去执行动作a的优劣
- 状态价值函数(State - value Function):对于给定的策略π，状态价值函数可以评估当前的状态是不是好的，而如果将状态s视为随机变量，对状态价值函数求期望，便可以评估策略函数π的优劣性（π越好则状态价值函数的期望值越高）