机器学习课程笔记：线性分类与逻辑回归详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00023/article/details/148416420

机器学习课程笔记：线性分类与逻辑回归详解

mlcourse.ai Open Machine Learning Course 项目地址: https://gitcode.com/gh_mirrors/ml/mlcourse.ai

1. 线性分类器基础概念

线性分类器是机器学习中最基础且重要的模型之一，其核心思想是通过一个超平面将特征空间中的两类样本分开。当训练集中的样本可以被一个超平面完美分割时，我们称这个训练集是线性可分的。

线性分类器的数学表达式为： $$ a(\textbf{x}) = \text{sign}(\textbf{w}^\text{T}\textbf x) $$

其中：

$\textbf{x}$ 是特征向量（包含偏置项）
$\textbf{w}$ 是权重向量（包含偏置$w_0$）
$\text{sign}(\bullet)$ 是符号函数
$a(\textbf{x})$ 是对样本$\textbf{x}$的分类结果

2. 逻辑回归：从线性回归到概率预测

逻辑回归虽然名为"回归"，但实际上是一种线性分类方法。与普通线性分类器相比，逻辑回归有一个显著优势：它不仅可以预测样本属于"+"类还是"-"类，还能预测样本属于"+"类的概率。

2.1 逻辑回归的概率预测

逻辑回归预测样本$\textbf{x}\text{i}$属于"+"类的概率为： $$ p+ = P\left(y_i = 1 \mid \textbf{x}\text{i}, \textbf{w}\right) = \sigma(\textbf{w}^\text{T}\textbf{x}\text{i}) $$

其中$\sigma(z) = \frac{1}{1 + \exp^{-z}}$是sigmoid函数，它将线性组合$\textbf{w}^\text{T}\textbf{x}$映射到[0,1]区间。

2.2 为什么使用sigmoid函数？

理解sigmoid函数的选用需要从几率比(Odds Ratio)的概念出发：

定义事件$X$的概率为$P(X)$
几率比$OR(X) = \frac{P(X)}{1-P(X)}$，表示事件发生与不发生的概率比
对几率比取对数得到$\log{OR(X)} \in \mathbb{R}$，这正是线性回归的输出范围

通过这三步转换，我们建立了概率与线性预测之间的联系，最终推导出使用sigmoid函数的合理性。

3. 最大似然估计与逻辑回归训练

3.1 联合概率表达

对于训练集中的样本，我们可以将正负类的概率统一表达为： $$ P\left(y = y_i \mid \textbf{x}\text{i}, \textbf{w}\right) = \sigma(y_i\textbf{w}^T\textbf{x}\text{i}) $$

这里$M(\textbf{x}\text{i}) = y_i\textbf{w}^T\textbf{x}\text{i}$被称为分类边际(margin)，它反映了模型对样本分类的"置信度"：

边际越大且为正，分类越正确且置信度高
边际越大且为负，分类错误且可能是异常样本
边际绝对值小，样本靠近决策边界

3.2 似然函数与对数损失

假设样本独立同分布(i.i.d.)，整个训练集的似然函数为： $$ P\left(\textbf{y} \mid \textbf{X}, \textbf{w}\right) = \prod_{i=1}^{\ell} \sigma(y_i\textbf{w}^\text{T}\textbf{x}_\text{i}) $$

取对数后得到对数似然： $$ \log P\left(\textbf{y} \mid \textbf{X}, \textbf{w}\right) = \sum_{i=1}^{\ell} \log \sigma(y_i\textbf{w}^\text{T}\textbf{x}_\text{i}) $$

最大化似然等价于最小化对数损失函数： $$ \mathcal{L_{\log}} (\textbf X, \textbf{y}, \textbf{w}) = \sum_{i=1}^{\ell} \log (1 + \exp^{-y_i\textbf{w}^\text{T}\textbf{x}_\text{i}}) $$

3.3 为什么使用对数损失？

对数损失是0-1损失的上界，通过最小化这个上界，我们间接减少了分类错误的数量。相比于不可导的0-1损失，对数损失具有良好的数学性质，适合梯度优化。

4. 正则化与模型稳定

为了防止过拟合，我们通常会在损失函数中加入$L_2$正则化项： $$ \mathcal{J}(\textbf X, \textbf{y}, \textbf{w}) = \mathcal{L_{\log}} (\textbf X, \textbf{y}, \textbf{w}) + \lambda |\textbf{w}|^2 $$

其中$\lambda$是正则化系数，其倒数$C=1/\lambda$常被称为正则化强度的逆。正则化通过限制权重的大小，提高了模型的泛化能力。