李宏毅《Deep Learning》学习笔记 - 强化学习

这篇博客介绍了李宏毅《Deep Learning》中的强化学习部分,涵盖Policy-based和Value-based方法,包括Policy Gradient的神经网络训练、损失函数设计、优化算法,以及Value-based方法中的Critic训练和时序差分学习。此外,还讨论了稀疏奖励和无奖励场景下的解决方案,如Reward Shaping、Imitation Learning和Inverse RL。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0. 入门介绍

相关学习资料的传送门:PDF, Video

在强化学习中,常用的方法主要包括:value-based的方法和policy-based的方法。
value-based方法要早于policy-based方法,其中,value-based方法是为了训练一个critic,负责判断actor做的好不好。policy-based方法是为了训练一个actor,用于获得更好的结果。
在这里插入图片描述
在这里插入图片描述

1. Policy-based Approach

1.1 使用神经网络来训练Actor

在这里插入图片描述
这里,actor的输出是一个概率分布,这样,最终产生的动作是随机的(stochastic),这样,在很多场景下是非常好的,如玩游戏等,可以尽可能探索新的路径。

另外,使用network代替lookup table的好处是它的泛化性更好,即便是一幅没有见过的状态图像,也是可以有较合理的结果的。这就非常适合那种输入是不可穷举的场景了。

1.2 设计损失函数

在开始设计RL的损失函数之前,我们先来回归一下监督学习中的损失函数。
在这里插入图片描述
监督学习中常用的Loss function是cross entorpy loss。

在这里插入图片描述
RL中常用的损失函数是total reward的期望值,即:N轮 τ \tau τ对应reward的均值。

另外,即便同一个actor在玩游戏,产生的序列 τ \tau τ也是不一样的,原因是由于游戏的随机性,以及actor的随机性。
在这里插入图片描述
产生的不同序列 τ \tau τ的概率,计算方式如上。其中,只有与 θ \theta θ相关的,才受actor影响。

在这里插入图片描述
reward的期望值,可以用N轮 τ \tau τ对应reward的均值来代替。

1.3 优化算法

在这里插入图片描述
优化算法是梯度上升,因为我们希望reward的期望值越大越好。

问题的核心在于如何计算梯度?这里采用的是policy gradient
在这里插入图片描述
R θ R_{\theta} Rθ本身是不可微的,因为这里的 R θ R_{\theta} Rθ是环境给的reward。

所以,这里我们需要做个转换,将计算

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值