CS285 2023Fall HW1作业解析

最新推荐文章于 2025-04-09 23:31:51 发布

原创最新推荐文章于 2025-04-09 23:31:51 发布

· 1.4k 阅读

24 ·

版权

文章标签：

#学习 #机器学习

神经网络同时被 2 个专栏收录

17 篇文章

订阅专栏

强化学习

1 篇文章

订阅专栏

CS285 2023Fall HW1

前言
Analysis
Q1.
- Q2.
Code

前言

你好！这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

Analysis

Q1.

在这里插入图片描述

分析：给出的条件实际上是Lecture2里提到的General Analysis的弱化版本，在Lecture中，实际上规定了在每一个时间步t，对当前时间步任意状态 $s_t$ 都有 $\pi_\theta(a_t\neq \pi^*(s_t)|s_t)\leq\epsilon$ ，而在这个问题中，该条件若化为了对任意时间步、任意状态的期望，这实际上是两个期望，一个是对时间的期望，另一个是对每个时间下状态的期望。根据下面的Hint，提示我们大概要构造期望，并用到一个和概率有关的union bound不等式，下面我们来求解。

首先我们模仿Lecture的内容，对于一个时间步骤 $t$ ，我们任取一个状态 $s_t$ ，为了方便后面的书写，我们先定义一个概率，即截至t时间步内，策略 $\pi_\theta$ 与最优策略完全相同的概率:
$p_{correct}=(1-Pr(\bigcup_{t=1}^t\pi_\theta(a_t)\neq\pi^* (a_t)))\tag{1}$
从而得到以下概率表示，这实际上是Lecture的公式的变形。
$p_{\pi_\theta}(s_t)=p_{correct}p_{\pi^*}(s_t) + (1-p_{correct})p_{wrong}(s_t)\tag{2}$
因此，采用与Lecture中相同的方式，我们可以得到：
$|p_{\pi_\theta}(s_t)-p_{\pi^*}(s_t)|=(1-p_{correct})|p_{wrong}(s_t)-p_{\pi^*}(s_t)|\tag{3}$
这里我们就已经得到了一个初步的表达式了，根据绝对值的性质，证明里的2已经凑出来了，这里我们先尝试分析 $p_{correct}$ 有
$p_{correct}\geq1-\sum_{t=1}^tPr(\pi_\theta(a_t)\neq\pi^* (a_t))=1-\sum_{t=1}^t\pi_\theta(a_t\neq\pi^*(s)|s)\tag{4}$
从而我们就得到:
$|p_{\pi_\theta}(s_t)-p_{\pi^*}(s_t)|\leq(\sum_{t=1}^t\pi_\theta(a_t\neq\pi^*(s)|s))|p_{wrong}(s_t)-p_{\pi^*}(s_t)|\tag{5}$
这里实际上就已经化简完了，最后直接套用前面的公式即可。但是我还是想问一个问题，这个问题当时看Lecture没有发现，即，我们能证明:
$|p_{\pi_\theta}(s_t)-p_{\pi^*}(s_t)|\leq2\epsilon T$ 但是我们怎么证明：
$\sum_{s_t}|p_{\pi_\theta}(s_t)-p_{\pi^*}(s_t)|\leq2\epsilon T\tag{6}$
这里很奇怪的一点是，课件上的证明是直接用了这一点？很莫名其妙。
在这里插入图片描述

Q2.

在这里插入图片描述
（1）如果reward只取决于 $s_t$ ，则可以化简为:
$J(\pi)=\sum_{i=1}^TE_{p_{\pi(s_t)}}r(s_t)=E_{p_{\pi(s_T)} }r(s_T)$
因此，有：
$J(\pi^*)-J(\pi_\theta)=E_{p_{\pi^*(s_T)} }r(s_T)-E_{p_{\pi_\theta(s_T)} }r(s_T)\leq2\epsilon TR_{max}=\mathcal{O}(T\epsilon)$
(2)同理，因为有求和，所以是 $\mathcal{O}(T^2\epsilon)$

Code

待更新