[机器学习][基础知识]线性回归_python 機器學習範例-优快云博客

本文链接：https://blog.youkuaiyun.com/Memento44Mori/article/details/105665089

本文深入探讨了线性回归这一核心机器学习方法，介绍了其数学原理，包括损失函数的选择——均方误差，以及优化方法如梯度下降和最小二乘法等。文章还详细解释了为何在假设误差独立同分布且服从高斯分布的前提下，使用均方误差作为损失函数的合理性，并通过极大似然估计来拟合模型。此外，还提到了几种常用的评价指标和如何在Python中使用sklearn库实现线性回归。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

线性回归

Task1

统计学习是关于计算机基于数据构建概率统计模型并利用模型进行预测与分析的一门科学
包括监督学习，无监督学习，强化学习，半监督学习，主动学习

监督学习的应用分为：
分类、标注、回归
回归模型时表示从输入变量到输出变量之间映射的函数。
一般分为：
线性回归和非线性回归

机器学习基础知识之

线性回归

一般形式

$f(x)=θ_0+θ_1x_1+θ_2x_2+...+θ_dx_d=∑_ i ^d θ_ix_i$
损失函数一般使用均方误差：
$J(θ)=\frac{1}{2}∑(h_\theta(x^{(i)}-y^{(i)}))^2$
最终求得： $j(\theta)$

理论

为什么用均方误差？

极大似然估计

前提：假设误差独立同分布，且服从高斯分布。
则可以利用极大似然估计去拟合误差
最大似然估计的结果为：
求
$l(\theta)=logL(θ) \\= log\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}} \\=\sum_{i=1}^nlog\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}} \\=nlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}\cdot\frac{1}{2}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2$ 最大
即求 $\frac{1}{2}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2$ 最小。