强化学习-基本概念

文章详细介绍了强化学习中的核心概念,包括贝尔曼公式及其在状态值和动作值上的应用,价值迭代和策略迭代算法,以及蒙特卡洛学习的基本算法。特别指出,蒙特卡洛学习的模型自由特性使其直接从经验数据中估计动作值,而不同于策略迭代先计算状态值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、基本概念

1.贝尔曼公式

推导过程:

$\begin{aligned} v_{\pi}\left(s\right)& =\mathbb{E}[G_t|S_t=s] \\ &=\mathbb{E}[R_{t+1}+\gamma G_{t+1}|S_t=s] \\ &=\mathbb{E}[R_{t+1}|S_t=s]+\gamma\mathbb{E}[G_{t+1}|S_t=s] \end{aligned}$

第一项:

$\begin{aligned} \mathbb{E}\left[R_{t+1}|S_{t}=s\right]& =\sum_{a}\pi(a|s)\mathbb{E}[R_{t+1}|S_{t}=s,A_{t}=a] \\ &=\sum_{a}\pi(a|s)\sum_{r}p(r|s,a)r \end{aligned}$

第二项:

$\begin{aligned} E\left[G_{t+1}|S_{t}=s\right]& =\sum_{s^{\prime}}\mathbb{E}[G_{t+1}|S_{t}=s,S_{t+1}=s^{\prime}]p(s^{\prime}|s) \\ &=\sum_{s'}\mathbb{E}[G_{t+1}|S_{t+1}=s']p(s'|s) \\ &=\sum_{s^{\prime}}v_{\pi}(s^{\prime})p(s^{\prime}|s) \\ &=\sum_{s'}v_{\pi}(s')\sum_a p(s'|s,a)\pi(a|s) \end{aligned}$

elementwise form

$v_{\pi}(s)=\sum_a\pi(a|s)\left[\sum_r p(r|s,a)r+\gamma\sum_r p(s'|s,a)v_{\pi}(s')\right]$

matrix-vector form

$v_\pi=r_\pi+\gamma P_\pi v_\pi$

2.贝尔曼最优公式

elementwise form

$v(s)=\max\sum\limits_{a}\pi(a|s)(\sum\limits_{r}p(r|s,a)r+\gamma\sum\limits_{s'}p(s'|s,a)v(s')),\forall s\in S$

matrix-vector form

$v=\max_{\pi}\left(r_{\pi}+\gamma P_{\pi}v\right)$

Solution:使用Value iteration

3.State value

定义:

$v_{\pi}(s)=\mathbb{E}[G_t|S_t=s]$

elementwise form

$v_{\pi}(s)=\sum\limits_{a}\pi(a|s)\Big[\sum\limits_{r}p(r|s,a)r+\gamma\sum\limits_{s'}p(s'|s,a)v_{\pi}(s')\Big]$

Solution:使用贝尔曼公式

4.Action value

定义:

$q_{\pi}(s,a)=\mathbb{E}[G_t|S_t=s,A_t=a]$

根据下面公式

$\underbrace{\mathbb{E}[G_t|S_t=s]}_{v_\pi(s)}=\sum_a\underbrace{\mathbb{E}[G_t|S_t=s,A_t=a]}_{q_\pi(s,a)}\pi(a|s)$

$v_{\pi}(s)=\sum_a\pi(a|s)q_{\pi}(s,a)$

得到

$v_\pi(s)=\sum_a\pi(a|s)\Big[\underbrace{\sum_r p(r|s,a)r+\gamma\sum_s'p(s'|s,a)v_\pi(s')}_{q_\pi(s,a)}\Big]$

elementwise form

$q_\pi(s,a)=\sum_r p(r|s,a)r+\gamma\sum\limits_{s'}p(s'|s,a)v_\pi(s')$

5.Value iteration

 

 

 6.Policy iteration

 

 

 

 7.Policy iteration & Value iteration

 

 二、蒙特卡洛(Monte Carlo Learning)

1.The MC Basic algorithm(model-free)

 注:可以看到,第二步和Policy iteration是一样的,唯一不同是在第一步时,Policy iteration是通过一个初始的策略求出State value再求出Action value,而MC是直接根据初始策略利用数据求出Action value。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值