2-2 问题
在线性回归中,如果我们给每个样本(x(n),y(n))\left( \boldsymbol{x}^{\left( n \right)},y^{\left( n \right)} \right)(x(n),y(n)) 赋予一个权重rnr^{n}rn,经验风险函数为R(w)=12∑n=1Nr(n)(y(n)−wTx(n))2
\mathcal{R}\left( w \right) =\frac{1}{2}\sum_{n=1}^N{\boldsymbol{r}^{\left( n \right)}\left( \boldsymbol{y}^{\left( n \right)}-\boldsymbol{w}^T\boldsymbol{x}^{\left( n \right)} \right) ^2}
R(w)=21n=1∑Nr(n)(y(n)−wTx(n))2
计算其最优参数w∗\boldsymbol{w^*}w∗,并分析权重rnr^{n}rn的作用。
解:风险函数R(w)\mathcal{R}\left( \boldsymbol{w} \right)R(w)是关于w\boldsymbol{w}w的凸函数,将rnr^{n}rn提到最前面进行叠加,其对w\boldsymbol{w}w的偏导为∂R(w)∂w=−12∑n=1Nr(n)X(y−XTw)
\frac{\partial \mathcal{R}\left( \boldsymbol{w} \right)}{\partial \boldsymbol{w}}=-\frac{1}{2}\sum_{\boldsymbol{n}=1}^N{r^{\left( n \right)}\boldsymbol{X}\left( \boldsymbol{y}-X^T\boldsymbol{w} \right)}
∂w∂R(w)=−21n=1∑Nr(n)X(y−XTw)
令上式为零得到w∗=∑n=1Nr(n)(XXT)−1Xy
w^*=\sum_{n=1}^N{r^{\left( n \right)}\left( XX^T \right) ^{-1}Xy}
w∗=n=1∑Nr(n)(XXT)−1Xy
结论:我们给每一个样本赋予权重rnr^{n}rn,这里我理解是在我们进行优化的时候,在局部数据进行优化的时候我们对感兴趣的局部设置权重往往会大一点以用来削弱距离较远的数据带来的影响。倘若在全局进行优化的时候我们往往会给予样本以相差不大的权重;这里权重是对数据处理进行的一次人为的标注,以达到我们所期望的最优参数解。
在邱老师的github课后解答中,我看到答案的解为:
令R\boldsymbol{R}R=diag(rnr^{n}rn)(对角矩阵)此时R\boldsymbol{R}RX\boldsymbol{X}X就表示将xnx^{n}xn赋予权重
∂R(w)∂w=12∂R∣∣y−XTw∣∣2∂w=0
\frac{\partial \mathcal{R}\left( w \right)}{\partial w}=\frac{1}{2}\frac{\partial \mathcal{R}||\boldsymbol{y}-\boldsymbol{X}^T\boldsymbol{w||}^2}{\partial \boldsymbol{w}}=0
∂w∂R(w)=21∂w∂R∣∣y−XTw∣∣2=0
−XR(y−XTw)=0
-\boldsymbol{XR}\left( \boldsymbol{y}-\boldsymbol{X}^{\boldsymbol{T}}\boldsymbol{w} \right) =0
−XR(y−XTw)=0
解得:
w∗=(XRXT)−1XRy
\boldsymbol{w}^*=\left( \boldsymbol{XRX}^{\boldsymbol{T}} \right) ^{-1}\boldsymbol{XRy}
w∗=(XRXT)−1XRy
此解更为简洁,我们注意的是构建矩阵R\boldsymbol{R}R为对角矩阵