一、基本形式:
给定由 d 个属性描述的实例,其中
x
i
x_{i}
xi 是
x
x
x 在第
i
i
i 个属性上的取值, 线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函,即:
f
(
x
)
=
w
1
x
1
+
w
2
x
2
+
.
.
.
+
w
2
x
2
+
b
f(x) = w_{1}x_{1}+ w_{2}x_{2}+...+w_{2}x_{2}+b
f(x)=w1x1+w2x2+...+w2x2+b,
一般用向量形式写成:
f
(
x
)
=
w
T
x
+
b
f(x) = w^T x+b
f(x)=wTx+b,其中
w
=
(
w
1
;
w
2
;
.
.
.
;
w
d
;
)
w=(w_{1};w_{2};...;w_{d}; )
w=(w1;w2;...;wd;),
w
w
w 和
b
b
b 的值确定之后,模型就可以随之确定。
二、线性回归:
给定数据集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
m
,
y
m
)
}
D=\left\{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m}) \right\}
D={(x1,y1),(x2,y2),...,(xm,ym)},
其中
x
i
=
(
x
i
1
;
x
i
2
;
.
.
.
;
x
i
d
;
)
,
y
i
∈
R
.
x_{i}=(x_{i1};x_{i2};...;x_{id}; ),y_{i}\in R.
xi=(xi1;xi2;...;xid;),yi∈R.“线性回归”(linear regression)试图以尽可能准确地预测实值输出标记。
线性回归试图学得
f
(
x
i
)
=
w
x
i
+
b
,
使
得
f
(
x
)
≅
y
i
.
f(x_{i})=wx_{i}+b,使得f(x)\cong y_{i}.
f(xi)=wxi+b,使得f(x)≅yi.
而如何确定
w
w
w 和
b
b
b,关键在于如何衡量
f
(
x
)
f(x)
f(x) 与
y
y
y 之间的差别。
当均方误差最小化(最小二乘法)时,上述两者之间的差别最小,即可求得线性回归函数。
找到一条直线,使得所有样本到直线上的欧式距离之和最小。
(
x
∗
,
b
∗
)
=
arg
min
(
w
,
b
)
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
=
arg
min
(
w
,
b
)
(
y
i
−
w
x
i
−
b
)
2
(x^*,b^*)=\mathop{\arg\min}_{(w,b)} \sum_{i=1}^m(f(x_{i})-y_{i})^2=\mathop{\arg\min}_{(w,b)} (y_{i}-wx_{i}-b)^2
(x∗,b∗)=argmin(w,b)∑i=1m(f(xi)−yi)2=argmin(w,b)(yi−wxi−b)2
分别令上述式子对 w w w 和 b b b 的偏导为0,可得到 w w w 和 b b b 的最优解为:
w = ∑ i = 1 m y i ( x i − x ˉ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 , w=\frac{\sum_{i=1}^my_{i}(x_{i}-\bar{x} ) }{\sum_{i=1}^mx_{i}^2 -\frac{1}{m} (\sum_{i=1}^mx_{i})^2} , w=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myi(xi−xˉ),
b
=
1
m
∑
i
=
1
m
(
y
i
−
w
x
i
)
,
b=\frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i}),
b=m1i=1∑m(yi−wxi),
其中,
x
ˉ
=
1
m
∑
i
=
1
m
x
i
\bar{x} = \frac{1}{m}\sum_{i=1}^{m}x_{i}
xˉ=m1∑i=1mxi 为
x
x
x 的均值。
当然,我们遇见的更一般的情况是数据集中的样本由多个属性描述,此时我们试图学得
f
(
x
i
)
=
w
T
x
i
+
b
,
使
得
f
(
x
i
)
≅
y
i
,
f(x_{i}) = w^Tx_{i}+b,使得 f(x_{i})\cong y_{i},
f(xi)=wTxi+b,使得f(xi)≅yi,这种情况称之为多元线性回归。
类似的,可以用最小二乘法来对
w
w
w 和
b
b
b 进行估计,为方便,将
w
w
w 和
b
b
b 吸收入向量形式
w
^
=
(
w
;
b
)
\hat{w} = (w;b)
w^=(w;b),相应地把数据集表示成一个 $ m \times (d+1)$ 的矩阵
X
X
X,其中每一行对应一个示例,该行的前
d
d
d 个元素对应于
d
d
d 个属性值,最后一个元素恒置为1,即:
再把标记也写成向量形式 y = ( y 1 ; y 2 ; . . . ; y m ) y=(y_{1};y_{2};...;y_{m}) y=(y1;y2;...;ym),故有:
w
^
∗
=
arg
min
w
^
(
y
−
X
w
^
)
T
(
y
−
X
w
^
)
.
\hat{w}^*= \mathop{\arg\min}_{\hat{w}}(y-X\hat{w})^T(y-X\hat{w}).
w^∗=argminw^(y−Xw^)T(y−Xw^).
使
w
^
∗
\hat{w}^*
w^∗的偏导为0即可求得最优解。具体步骤略。
最终学得的多元线性回归模型为: f ( x i ^ ) = x ^ i T ( X T X ) − 1 X T y f(\hat{x_{i}})=\hat{x}_{i}^T(X^TX)^{-1}X^Ty f(xi^)=x^iT(XTX)−1XTy。
三、代码实现及例子:
以下为线性模型的 Python 代码实现
import numpy as np
import matplotlib.pyplot as plt
"""
利用 Python 实现线性回归模型
"""
class LinerRegressionModel(object):
def __init__(self, data):
self.data = data
self.x = data[:, 0]
self.y = data[:, 1]
def log(self, a, b):
print("计算出的线性回归函数为:\ny = {:.5f}x + {:.5f}".format(a, b))
def plt(self, a, b):
plt.plot(self.x, self.y, 'o', label='data', markersize=10)
plt.plot(self.x, a * self.x + b, 'r', label='line')
plt.legend()
plt.show()
def least_square_method(self):
"""
最小二乘法的实现
"""
def calc_ab(x, y):
sum_x, sum_y, sum_xy, sum_xx = 0, 0, 0, 0
n = len(x)
for i in range(0, n):
sum_x += x[i]
sum_y += y[i]
sum_xy += x[i] * y[i]
sum_xx += x[i]**2
a = (sum_xy - (1/n) * (sum_x * sum_y)) / (sum_xx - (1/n) * sum_x**2)
b = sum_y/n - a * sum_x/n
return a, b
a, b = calc_ab(self.x, self.y)
self.log(a, b)
self.plt(a, b)
data = np.array([[1, 2.5], [2, 3.3], [2.5, 3.8],[3, 4.5], [4, 5.7], [5, 6]])
model = LinerRegressionModel(data)
model.least_square_method()
最终输出结果为:
sklearn 中也带有线性回归的代码模块。
sklearn.linear_model中的LinearRegression可实现线性回归
• LinearRegression 的构造方法:
• LinearRegression(
fit_intercept=True, #默认值为 True,表示 计算随机变量,False 表示不计算随机变量
normalize=False, #默认值为 False,表示在回归前是否对回归因子X进行归一化True 表示是 ,
copy_X=True
)
LinearRegression 的常用方法有:
• decision_function(X) #返回 X 的预测值 y
• fit(X,y[,n_jobs]) #拟合模型
• get_params([deep]) #获取 LinearRegression 构造方法的参数信息
• predict(X) #求预测值 #同 decision_function
例子:波士顿房价的线性关系。
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston
import matplotlib.pyplot as plt
"""
线性回归
"""
# 1.获取数据
boston = load_boston() # 获取波士顿房价的数据
x = boston.data[:, 5:6] # 取数据第五列为 x 的值
y = boston.target # 取 y 值
# 2.训练模型
model2 = LinearRegression().fit(x, y)
# 3.模型预测
pre = model2.predict(x)
# 4.绘制结果
plt.scatter(x, y, color='red')
plt.plot(x, pre)
plt.show()
plt.close()
输出结果为: