离线强化学习(Offline RL)

1. 强化学习基础

1.1 什么是强化学习?

强化学习(Reinforcement Learning, RL)是一种机器学习范式,关注如何让一个智能体通过与环境的交互,学习到最优的决策策略,以最大化长期累计奖励。不同于监督学习(给定输入-输出对)和无监督学习(寻找数据中的模式),强化学习的特点是试错学习延迟奖励

通俗比喻
想象你在玩迷宫游戏,你(智能体)需要从起点走到终点(目标)。你不知道迷宫地图,只能通过不断尝试(走路),观察结果(撞墙或前进),并根据奖励(到达终点得高分,撞墙扣分)学习最佳路径。这就是强化学习的核心思想。

1.2 强化学习的核心概念

以下是强化学习的基本要素:

  • 智能体:决策者,执行动作。
  • 环境:智能体交互的对象,提供状态和奖励。
  • 状态(sss:描述环境某一时刻的状况。
  • 动作(aaa:智能体在某状态下可采取的行为。
  • 奖励(rrr:环境对智能体动作的反馈,通常是一个标量。
  • 策略(π\piπ:智能体根据状态选择动作的规则,记为 π(a∣s)\pi(a|s)π(as),表示在状态 sss 下选择动作 aaa 的概率。
  • 回报(GGG:从某一时刻开始的累计奖励,通常是折扣后的总和 Gt=rt+γrt+1+γ2rt+2+…G_t = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + \dotsGt=rt+γrt+1+γ2rt+2+,其中 γ∈[0,1)\gamma \in [0,1)γ[0,1) 是折扣因子。
  • 价值函数
    • 状态价值函数 Vπ(s)V^\pi(s)Vπ(s):在策略 π\piπ 下,从状态 sss 开始的期望回报。
    • 动作价值函数 Qπ(s,a)Q^\pi(s,a)Qπ(s,a):在状态 sss 下执行动作 aaa,然后按策略 π\piπ 继续行动的期望回报。
  • 马尔可夫决策过程(MDP):强化学习的数学框架,定义为五元组 (S,A,P,R,γ)(S, A, P, R, \gamma)(S,A,P,R,γ),其中:
    • SSS:状态空间
    • AAA:动作空间
    • P(s′∣s,a)P(s'|s,a)P(ss,a):状态转移概率
    • R(s,a)R(s,a)R(s,a):奖励函数
    • γ\gammaγ:折扣因子

1.3 强化学习与深度学习的区别与联系

  • 区别
    • 数据来源:深度学习通常使用静态数据集(图像、文本等),而强化学习通过与环境交互动态生成数据。
    • 目标:深度学习优化损失函数(如均方误差),强化学习优化累计奖励。
    • 反馈:深度学习有即时标签,强化学习反馈是延迟的、稀疏的。
  • 联系
    • 深度强化学习(Deep RL):将深度神经网络用于强化学习,解决高维状态空间(如图像)或复杂策略的表示问题。例如,DQN 使用深度网络逼近 Q 函数。
    • 深度学习技术(如 CNN、RNN、优化器)在深度强化学习中广泛应用。

1.4 强化学习的数学框架

强化学习的目标是找到一个最优策略 π∗\pi^*π,使期望回报最大化。数学上,优化目标为:
J(π)=Eπ[∑t=0∞γtr(st,at)]J(\pi) = \mathbb{E}_{\pi} \left[ \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \right]J(π)=Eπ[t=0γtr(st,at)]
其中,at∼π(⋅∣st)a_t \sim \pi(\cdot|s_t)atπ(st)st+1∼P(⋅∣st,at)s_

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱看烟花的码农

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值