线性回归
我们从用给定的数据集(x,y),学习了一组参数θ ,y(i)=θTx(i)+ϵ(i)y^{(i)}=θ^{T}x^{(i)}+ϵ^{(i)}y(i)=θTx(i)+ϵ(i),假设ϵi服从期望为0的正态分布ϵi~N(0,σ^2);
度量线性回归模型性能用均方误差MSE ,代价函数为:J(θ)=1/(2∗m)∑i=1m(y(i)′−yi)2J(θ)=1/(2*m)\sum_{i=1}^m(y^{(i)'}-y^i) ^{2}J(θ)=1/(2∗m)i=1∑m(y(i)′−yi)2
最小化代价函数得到最终的参数
最大似然估计
已知y(i)=θTx(i)+ϵ(i)y^{(i)}=θ^{T}x^{(i)}+ϵ^{(i)}y(i)=θTx(i)+ϵ(i) 那么ϵ(i)=y(i)−θTx(i)ϵ^{(i)}=y^{(i)}-θ^{T}x^{(i)}ϵ(i)=y(i)−θTx(i)
似然函数L(θ)=∏i=1mP(y(i)∣x(i),θ)=∏i=1mP(ϵ(i)=y(i)−θTx(i))=∏i=1mf(ϵ(i))L(\theta)=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)},\theta)=\prod_{i=1}^{m}P(ϵ^{(i)}=y^{(i)}-θ^{T}x^{(i)})=\prod_{i=1}^{m}f(\epsilon ^{(i)})L(θ)=i=1∏mP(y(i)∣x(i),θ)=i=1∏mP(ϵ(i)=y(i)−θTx(i))=i=1∏mf(ϵ(i))
因为ε是连续型随机变量,用f标准正态概率密度代入L(θ)=∏i=1m1σ2πe−(y(i)−θTx(i))22σ2L(\theta)=\prod_{i=1}^{m}\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(y^{(i)}-θ^{T}x^{(i)})^{2}}{2\sigma ^{2}}}L(θ)=i=1∏mσ2π1e−2σ2(y(i)−θTx(i))2
最大化似然函数,取对数lnL(θ)=ln∏i=1m1σ2πe−(y(i)−θTx(i))22σ2=ln1σ2π−∑i=1m(y(i)−θTx(i))22σ2\ln L(\theta)=\ln \prod_{i=1}^{m}\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(y^{(i)}-θ^{T}x^{(i)})^{2}}{2\sigma ^{2}}}=\ln \frac{1}{\sigma \sqrt{2\pi}}-\sum_{i=1}^{m} \frac{(y^{(i)}-θ^{T}x^{(i)})^{2}}{2\sigma ^{2}}lnL(θ)=lni=1∏mσ2π1e−2σ2(y(i)−θTx(i))2=lnσ2π1−i=1∑m2σ2(y(i)−θTx(i))2
因此要最小化∑i=1m(y(i)−θTx(i))2\sum_{i=1}^{m} {(y^{(i)}-θ^{T}x^{(i)})^{2}}i=1∑m(y(i)−θTx(i))2 和线性回归最小化的目标相同,殊途同归,可以将线性回归看成最大似然估计的特例?