线性回归
我们从用给定的数据集(x,y),学习了一组参数θ ,
y
(
i
)
=
θ
T
x
(
i
)
+
ϵ
(
i
)
y^{(i)}=θ^{T}x^{(i)}+ϵ^{(i)}
y(i)=θTx(i)+ϵ(i),假设ϵi服从期望为0的正态分布ϵi~N(0,σ^2);
度量线性回归模型性能用均方误差MSE ,代价函数为:
J
(
θ
)
=
1
/
(
2
∗
m
)
∑
i
=
1
m
(
y
(
i
)
′
−
y
i
)
2
J(θ)=1/(2*m)\sum_{i=1}^m(y^{(i)'}-y^i) ^{2}
J(θ)=1/(2∗m)i=1∑m(y(i)′−yi)2
最小化代价函数得到最终的参数
最大似然估计
已知
y
(
i
)
=
θ
T
x
(
i
)
+
ϵ
(
i
)
y^{(i)}=θ^{T}x^{(i)}+ϵ^{(i)}
y(i)=θTx(i)+ϵ(i) 那么
ϵ
(
i
)
=
y
(
i
)
−
θ
T
x
(
i
)
ϵ^{(i)}=y^{(i)}-θ^{T}x^{(i)}
ϵ(i)=y(i)−θTx(i)
似然函数
L
(
θ
)
=
∏
i
=
1
m
P
(
y
(
i
)
∣
x
(
i
)
,
θ
)
=
∏
i
=
1
m
P
(
ϵ
(
i
)
=
y
(
i
)
−
θ
T
x
(
i
)
)
=
∏
i
=
1
m
f
(
ϵ
(
i
)
)
L(\theta)=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)},\theta)=\prod_{i=1}^{m}P(ϵ^{(i)}=y^{(i)}-θ^{T}x^{(i)})=\prod_{i=1}^{m}f(\epsilon ^{(i)})
L(θ)=i=1∏mP(y(i)∣x(i),θ)=i=1∏mP(ϵ(i)=y(i)−θTx(i))=i=1∏mf(ϵ(i))
因为ε是连续型随机变量,用f标准正态概率密度代入
L
(
θ
)
=
∏
i
=
1
m
1
σ
2
π
e
−
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
L(\theta)=\prod_{i=1}^{m}\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(y^{(i)}-θ^{T}x^{(i)})^{2}}{2\sigma ^{2}}}
L(θ)=i=1∏mσ2π1e−2σ2(y(i)−θTx(i))2
最大化似然函数,取对数
ln
L
(
θ
)
=
ln
∏
i
=
1
m
1
σ
2
π
e
−
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
=
ln
1
σ
2
π
−
∑
i
=
1
m
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
\ln L(\theta)=\ln \prod_{i=1}^{m}\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(y^{(i)}-θ^{T}x^{(i)})^{2}}{2\sigma ^{2}}}=\ln \frac{1}{\sigma \sqrt{2\pi}}-\sum_{i=1}^{m} \frac{(y^{(i)}-θ^{T}x^{(i)})^{2}}{2\sigma ^{2}}
lnL(θ)=lni=1∏mσ2π1e−2σ2(y(i)−θTx(i))2=lnσ2π1−i=1∑m2σ2(y(i)−θTx(i))2
因此要最小化
∑
i
=
1
m
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
\sum_{i=1}^{m} {(y^{(i)}-θ^{T}x^{(i)})^{2}}
i=1∑m(y(i)−θTx(i))2 和线性回归最小化的目标相同,殊途同归,可以将线性回归看成最大似然估计的特例?