线性回归
给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x m , y m ) } D = \{ ({x_1},{y_1}),({x_2},{y_2}), \cdots ,({x_m},{y_m})\} D={ (x1,y1),(x2,y2),⋯,(xm,ym)},其中 x i = ( x i 1 ; x i 2 ; ⋯ ; x i d ) x_i=(x_{i1};x_{i2};\cdots;x_{id}) xi=(xi1;xi2;⋯;xid), y i ∈ R . y_i\in R. yi∈R.线性回归试(linear regression)图学得一个线性模型以尽可能的准确的预测实值输出标记。
这里 x i x_i xi表示数据集中第 i i i个样本,该样本总共有 d d d个特征。
1.单变量线性回归
由于是单变量,输入的样本特征只有一个,此时我们忽略关于样本特征的下标,即 D = { ( x i , y i ) } i = 1 m D = \{ ({x_i},{y_i})\} _{i = 1}^m D={
(xi,yi)}i=1m,其中 x i ∈ R {x_i} \in R xi∈R。对于离散属性,若特征值间存在“序”(order)关系,可通过连续化将其转化为连续值。
线性回归试图学得
f ( x i ) = w x i + b , 使 得 f ( x i ) ≃ y i f({x_i}) = w{x_i} + b,使得f({x_i}) \simeq {y_i} f(xi)=wxi+b,使得f(xi)≃yi
确定 w w w与 b b b的值,关键在于如何衡量 f ( x ) f(x) f(x)与 y y y之间的差异,而均方误差则是回归任务中最常用的性能度量,因此需要让均方误差最小化,即 w w w与 b b b的解 w ∗ 与 b ∗ {w^*}与{b^*} w∗与b∗为
( w ∗ , b ∗ ) = arg min ( w , b ) ∑ i = 1 m ( f ( x i ) − y i ) 2 = arg min ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 \begin{aligned} ({w^*},{b^*}) &= \mathop {\arg \min }\limits_{(w,b)} \sum\limits_{i = 1}^m {
{
{(f({x_i}) - {y_i})}^2}} \\ & = \mathop {\arg \min }\limits_{(w,b)} \sum\limits_{i = 1}^m {
{
{({y_i} - w{x_i} - b)}^2}} \end{aligned} (w∗,b∗)=(w,b)argmini=1∑m(f(xi)−yi)2=(w,b)argmini=1∑m(yi−wxi−b)2
均方误差的几何意义对应于欧几里得距离即“欧氏距离”,而基于均方误差最小化来进行模型求解的方法则是“最小二乘法”,“最小二乘法”实质上就是找到一条直线,使所有样本数据到该直线的欧式距离之和最小,即误差最小。
求解 w w w与 b b b是使代价函数 J ( w , b ) = 1 2 ∑ i = 1 m ( y i − w x i − b ) 2 {J{(w,b)}} =\frac{1}{2} \sum\limits_{i = 1}^m {
{
{({y_i} - w{x_i} - b)}^2}} J(w,b)=21i=1∑m(yi−wxi−b)2最小化的过程, J ( w , b ) {J{(w,b)}} J(w,b)是关于 w w w和 b b b的凸函数,当它关于 w w w和 b b b的导数均为0时,得到 w w w和 b b b的最优解。得到
∂ J ( w , b ) ∂ w = w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ∂ J ( w , b ) ∂ b = ∑ i = 1 m b − ∑ i = 1 m y i + ∑ i = 1 m w x i = m b − ∑ i = 1 m ( y i − w x i ) \begin{aligned} \frac{
{\partial {J{(w,b)}}}}{
{\partial w}} &= w\sum\limits_{i = 1}^m {
{x_i}^2 - } \sum\limits_{i = 1}^m {({y_i} - b){x_i}} \\ \frac{
{\partial {J{(w,b)}}}}{
{\partial b}} &= \sum\limits_{i = 1}^m b - \sum\limits_{i = 1}^m {
{y_i} + \sum\limits_{i = 1}^m {w{x_i}} }= mb - \sum\limits_{i = 1}^m {({y_i} - w{x_i}} ) \end{aligned} ∂w∂J(w,b)∂b∂J(w,b)=wi=1∑mxi2−i=1∑m(yi−b)xi=i=1∑mb−i=1∑myi+i=1∑mwxi=mb−i=1∑m(yi−wxi)