近似值函数与在线规划方法解析
1. 线性回归
线性回归是一种简单的全局近似方法,其中 $U_θ(s)$ 是基函数(也常称为特征)的线性组合。这些基函数通常是状态 $s$ 的非线性函数,并组合成向量函数 $β(s)$ 或 $β(s, a)$,从而得到以下近似:
$U_θ(s) = θ^⊤β(s)$
$Q_θ(s, a) = θ^⊤β(s, a)$
虽然我们的近似相对于基函数是线性的,但相对于底层状态变量,得到的近似可能是非线性的。例如,在连续的山地车问题中,使用多项式基函数进行全局线性值近似,会得到一个相对于状态变量的非线性值函数近似。
1.1 山地车问题的基函数
山地车问题具有一个由位置 $x$ 和速度 $v$ 组成的二维连续状态空间。以下是直到六阶的基函数:
$β(s) = [1, x, v, x^2, xv, v^2, x^3, x^2v, xv^2, v^3, x^4, x^3v, x^2v^2, xv^3, v^4, x^5, x^4v, x^3v^2, x^2v^3, xv^4, v^5, x^6, x^5v, x^4v^2, x^3v^3, x^2v^4, xv^5, v^6]$
1.2 线性模型拟合
拟合线性模型涉及确定向量 $θ$,以最小化在状态集合 $S = {s_1:m}$ 上的预测平方误差。如果与这些状态相关联的效用表示为 $u_1:m$,则我们要找到使下式最小化的 $θ$:
$\sum_{i=1}^{m} ( \hat{U} θ(s_i) - u_i)^2 = \sum {i=1}^{m} (θ^⊤β(s_i) - u_i)^2
超级会员免费看
订阅专栏 解锁全文
1331

被折叠的 条评论
为什么被折叠?



