理论推导
在线性模型中,假设预测结果与实际结果有误差为ε(i)\varepsilon^{(i)}ε(i)
则线性模型中,误差可以表示为
ε(i)=y(i)−θTx(i)\varepsilon^{(i)} = y^{(i)} - \theta^Tx^{(i)}ε(i)=y(i)−θTx(i)
根据中心极限定律,假设误差ε(i)\varepsilon^{(i)}ε(i)服从标准正态分布,则可以得到
p(y(i)∣x(i);θ)=12πσe(−y(i)−θTx(i)2σ2)p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma} e^{(-\frac{y^{(i)} - \theta^Tx^{(i)}}{2\sigma^{2}})}p(y(i)∣x(i);θ)=2πσ1e(−2σ2y(i)−θTx(i))
根据最大似然估计得到
L(u,σ2)=∏i=1n12πσe−(εi−u)22σ2L(u,\sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(\varepsilon_i-u)^2}{2 \sigma^2}}L(u,σ2)=i=1∏n2πσ1e−2σ2(εi−u)2
取对数得到
ln(L(u,σ2))=−n2lnσ2−n2ln2π−∑i=1n(εi−u)22σ2ln(L(u,\sigma^2)) = -\frac{n}{2}ln\sigma^2-\frac{n}{2}ln2\pi-\frac{\sum_{i=1}^{n}(\varepsilon_i-u)^2}{2 \sigma^2}ln(L(u,σ2))=−2nlnσ2−2nln2π−2σ2∑i=1n(εi−u)2
为了使似然函数最大,式中的σ\sigmaσ在上面的假设中为一个定值,所以要使得似然函数取最大,则12∑i=1n(εi−u)2{\frac{1}{2}\sum_{i=1}^{n}(\varepsilon_i-u)^2}21∑i=1n(εi−u)2需要最小,得到平方损失函数为:
J(θ)=12∑i=1n(y(i)−θTx(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{n}(y^{(i)} - \theta^Tx^{(i)})^2J(θ)=21i=1∑n(y(i)−θTx(i))2