机器学习西瓜书吃瓜笔记之(一)深入理解线性模型与logistics回归_人工智能西瓜书logistics回归原理-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_39955411/article/details/108878745

本文介绍了机器学习的基本问题，如回归与分类的区别，以及线性模型（包括最小二乘法）和广义线性模型（如对数线性和对数几率回归）的概念和应用。通过实例演示了如何利用这些模型进行预测，并强调了广义线性模型的非线性建模能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

入门概念

机器学习两大基本问题（预期的输出是离散还是连续）：

回归问题：用多个变量拟合出一个连续值
分类问题：用多个变量拟合出一个离散值

机器学习三大理论（确定研究手段）：

传统监督学习（血糖预测、有无糖尿病预测）
深度学习（自然语言处理、计算机视觉、端到端无人驾驶）
强化学习（玩赛车、机器人开门）

（写在最前：以下推导过程加入了个人理解，对原有公式有做修改，如有疑问或发现错误请提出，非常感谢）

线性模型

优势

形式简单，可引入层级结构或高维映射升级成非线性模型
可解释性强，w直观表达了各属性在预测中的重要性

实现

试图学到：
$f(x_i)=w^Tx_i+b$
使得：
$f(x_i)\simeq y_i$

关键就是如何衡量 $f (x)$ 与 $y$ 的区别。使用不同的方法可以得到不同的效果。
一般使用均方误差。此时需要求最小化误差下 $w$ 和 $b$ 的值。

设 $\hat x_i = \begin{bmatrix} x_i\\ 1 \end{bmatrix}$ ，即为每个样本的属性维度末尾添上1。

直观理解，当把 $w$ 和 $b$ 合成 $\hat{w}$ 时，这个1参与 $\hat{w}$ 最后一个参数的计算，起到原本 $b$ 的作用

设数据集
$X_{(D+1)×(N)}= \begin{bmatrix} x_1 & x_2 & ...& x_n \end{bmatrix}$ （下标为维度，D为属性数，N为样本数，下同）

设标签集
$Y_{(1)×(N)}= \begin{bmatrix} y_1 & y_2 & ...& y_n \end{bmatrix}$

设参数
$\hat{w}_{(D+1)×(1)}=\binom{w}{b}$ ，求解 $\hat{w}$ 方法即最小二乘参数估计法。

$\mathop{\arg\min}\limits_{\hat{w}}\left \| Y-\hat{w}^TX\right \|_2$

误差的大小用欧式距离 $E_{\hat{w}}$ 表示：
$\begin{aligned} E_{\hat{w}} &=\left \| Y-\hat{w}^TX\right \|_2 \\ &=(Y-\hat{w}^TX)(Y-\hat{w}^TX)^T \end{aligned}$
对误差求偏导，以找到误差 $E_{\hat{w}}$ 极值点：
$\frac{\partial E_{\hat{w}}}{\partial w}=2(\hat{w}^TX-Y)X^T$

之后令 $\frac{\partial E_{\hat{w}}}{\partial w}=0$ ，便可求得 $\hat{w}$ 的闭式最优解。

广义线性模型

设模型输出为 $z$ ：
$z=w^Tx+b$
当加上单调可微函数 $g (\cdot)$ ，令：
$y=g^{-1}(z)$
便成为广义线性模型， $g (\cdot)$ 称为联系函数。当 $g (\cdot) = l n (\cdot)$ 时，得到对数线性回归 ：
$l n (y) = z$
此时输出标记的对数作为逼近的目标，对数函数把目标值 $y$ 和回归模型的输出值 $z$ 联系起来，升级成了非线性模型。

对数几率回归

若要解决的是二分类问题，需要构建二分类模型时，只需要找一个单调可微函数把标记 $y$ 和回归模型的输出值 $z$ 联系起来就可以了。

单位阶跃函数虽然简单，但是不连续不可微。而对数几率函数很适合这个任务：
$y=\frac{1}{1+e^{-z}}=\frac{e^z}{e^z+1}$
根据上一章作变换：
$ln\frac{y}{1-y}=z$
若将 $y$ 视为样本 $x$ 作为正例的可能性，则 $1 - y$ 是其反例可能性，两者的比值 $\frac{y}{1-y}$ 称为几率 (odds)，反映了 $x$ 作为正例的相对可能性，对几率取对数则得到对数几率 (log odds)，而对应的模型称为对数几率回归 (即大名鼎鼎的logistics回归)，有如下优势

他直接对分类可能性建模，无需假设数据分布（如何理解？）
能同时预测出类别和近似概率
对数几率是任意阶可导凸函数，有良好数学性质

求导
$\frac{\partial y(z)}{\partial z}=\frac{\partial \frac{1}{1+e^{-z}}}{\partial z}=\frac{1}{1+e^{-z}}·\frac{-e^{-z}}{1+e^{-z}}=y(z)·(1-y(z))$

为了求出最优的模型，我们需要让每个样本属于其标记的概率越大越好。先把 $y$ 视为后验概率估计 $p\left(y=1\left|x\right.\right)$ ，那么上述式子可以写成：
$ln\frac{p\left(y=1\left|x\right.\right)}{p\left(y=0\left|x\right.\right)}=z$
其中：
$p_{y=1}(x)=\frac{e^z}{e^z+1}$
$p_{y=0}(x)=\frac{1}{e^z+1}$
于是可以通过极大似然法，在给定数据集 ${(x_i,y_i)\}_{i=1}^m$ 的情况下，最大化对率回归模型的对数似然函数 ：
$\begin{aligned} \ell(\hat{w}) &=\sum_{i=1}^{m}ln\left. p_{y=y_i}(x_i;\hat{w})\right.\\ &=\sum_{i=1}^{m}ln(y_ip_{y=1}(x_i;\hat{w})+(1-y_i)p_{y=0}(x_i;\hat{w}))\\ &=\sum_{i=1}^{m}ln(y_i\frac{e^{\hat{w}X}}{e^{\hat{w}X}+1}+(1-y_i)\frac{1}{e^{\hat{w}X}+1})\\ &=\sum_{i=1}^{m}(ln(y_ie^{\hat{w}X}-y+1)-ln(e^{\hat{w}X}+1))\\ \end{aligned}$