强化学习 by 李宏毅(个人记录向)

本文深入探讨了强化学习中的核心算法,包括PPO、Q-Learning及其变种DQN和Dueling DQN,并讨论了策略梯度方法及Actor-Critic架构。此外,还介绍了在稀疏奖励环境下如何通过内在好奇心模块(ICM)来促进探索。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

P2Proximal Policy Optimization (PPO)

importance sampling:importance sampling

On-policy -> Off-policy
Gradient for update:
Gradient fro update

Objective function
ppo function

*KL divergence(KL距离) 常用来衡量两个概率分布的距离

E(st,at)πθE(st,at)∼πθ′

Q-learning

critic 评价action的效果
Monte-Carlo(MC) based approach
Temporal-difference(TD) approach

Vπ(st)=Vπ(st+1)+rtVπ(st)=Vπ(st+1)+rt

这里写图片描述
*mc td分别代表什么

Target Network
Target Network


Exploration Epsilon Greedy


Replay Buffer
减少与环境做互动的时间


Typical Q-learning Algorithm
Typical Q-learning Algorithm

Tips of Q-Learning

Double DQN
Q-Value总是被高估,因为target总是被设得太高

Double DQN

Dueling DQN
修改了网络的架构,分为V+A = Q


Prioritized Reply
Prioritized Reply


Multi-step
Multi-step


Q-Learning for Continuous Actions
Q-Learning不容易处理连续的行为,如自动驾驶,机器人行动
Using gradient ascent to solve the optimization problem
Continuous Action Solution


policy-based(ppo)
value-based(Q-learning)


Asynchronous Advantage Actor-Critic

Review Policy Gradient

R¯¯¯¯θ1Nn=1Nt=1Tn(t=tTnγttrntb)logpθ(ant|snt)∇R¯θ≈1N∑n=1N∑t=1Tn(∑t′=tTnγt′−trt′n−b)∇logpθ(atn|stn)

γttrntbrnt+Vπ(snt+1)γt′−trt′n−b≈rtn+Vπ(st+1n)

Actor-Critic
Actor-Critic
Advantage Actor Critic

Pathwise Derivative Policy Gradient

Pathwise Gradient

这里写图片描述

Sparse Reward

agent多数情况下,无法得到reward

Reward Shaping:

ICM = instrinsic curiosity module 鼓励冒险
instrinsic curiosity module
根据atstatst,Network1预测st+1st+1与真正的st+1st+1差距,即采取某action,无法预测接下来的结果那么鼓励该操作
提取需要的特征,通过Network2仍然得到正确atat,说明过滤掉是无用的信息

Curriculum Learning

Reverse Curriculum Generation根据得分反推
Hierarchical RL分级强化学习


Imitation Learning

Behavior Cloning

  • 存在局限性,无法收集极端情况下的数据
  • 学习无用的行为

Inverse RL
Inverse RL
IRL训练专家的数据,得到正确的Reward Funciton;转而,RL利用Reward Funciton得到optimal acto,类似于GAN。


应用:自驾车

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值