习题2-2（nndl）

原创已于 2022-03-19 19:35:17 修改 · 780 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#线性代数 #矩阵 #深度学习

于 2022-03-15 19:45:50 首次发布

nndl 课后作业专栏收录该内容

7 篇文章

订阅专栏

本文深入探讨了在线性回归中如何通过权重矩阵R对样本进行加权，以影响经验风险函数。我们分析了权重r^n在局部优化和全局优化中的作用，并对比了两种解法，明确了权重是对数据处理的个性化标记，有助于获取期望的最优参数。

2-2 问题

在线性回归中，如果我们给每个样本 $(x(n),y(n))\left( \boldsymbol{x}^{\left( n \right)},y^{\left( n \right)} \right)$ 赋予一个权重 $r^{n}$ ,经验风险函数为 $\mathcal{R}\left( w \right) =\frac{1}{2}\sum_{n=1}^N{\boldsymbol{r}^{\left( n \right)}\left( \boldsymbol{y}^{\left( n \right)}-\boldsymbol{w}^T\boldsymbol{x}^{\left( n \right)} \right) ^2}$
计算其最优参数 $w∗\boldsymbol{w^*}$ ,并分析权重 $r^{n}$ 的作用。

解：风险函数 $R(w)\mathcal{R}\left( \boldsymbol{w} \right)$ 是关于 $w\boldsymbol{w}$ 的凸函数，将 $r^{n}$ 提到最前面进行叠加，其对 $w\boldsymbol{w}$ 的偏导为 $\frac{\partial \mathcal{R}\left( \boldsymbol{w} \right)}{\partial \boldsymbol{w}}=-\frac{1}{2}\sum_{\boldsymbol{n}=1}^N{r^{\left( n \right)}\boldsymbol{X}\left( \boldsymbol{y}-X^T\boldsymbol{w} \right)}$
令上式为零得到 $w^*=\sum_{n=1}^N{r^{\left( n \right)}\left( XX^T \right) ^{-1}Xy}$

结论：我们给每一个样本赋予权重 $r^{n}$ ，这里我理解是在我们进行优化的时候，在局部数据进行优化的时候我们对感兴趣的局部设置权重往往会大一点以用来削弱距离较远的数据带来的影响。倘若在全局进行优化的时候我们往往会给予样本以相差不大的权重；这里权重是对数据处理进行的一次人为的标注，以达到我们所期望的最优参数解。

在邱老师的github课后解答中，我看到答案的解为：
令 $R\boldsymbol{R}$ =diag( $r^{n}$ )(对角矩阵)此时 $R\boldsymbol{R}$ $X\boldsymbol{X}$ 就表示将 $x^{n}$ 赋予权重
$\frac{\partial \mathcal{R}\left( w \right)}{\partial w}=\frac{1}{2}\frac{\partial \mathcal{R}||\boldsymbol{y}-\boldsymbol{X}^T\boldsymbol{w||}^2}{\partial \boldsymbol{w}}=0$
$-\boldsymbol{XR}\left( \boldsymbol{y}-\boldsymbol{X}^{\boldsymbol{T}}\boldsymbol{w} \right) =0$
解得：
$\boldsymbol{w}^*=\left( \boldsymbol{XRX}^{\boldsymbol{T}} \right) ^{-1}\boldsymbol{XRy}$
此解更为简洁，我们注意的是构建矩阵 $R\boldsymbol{R}$ 为对角矩阵