机器学习课程笔记:线性分类与逻辑回归详解
mlcourse.ai Open Machine Learning Course 项目地址: https://gitcode.com/gh_mirrors/ml/mlcourse.ai
1. 线性分类器基础概念
线性分类器是机器学习中最基础且重要的模型之一,其核心思想是通过一个超平面将特征空间中的两类样本分开。当训练集中的样本可以被一个超平面完美分割时,我们称这个训练集是线性可分的。
线性分类器的数学表达式为: $$ a(\textbf{x}) = \text{sign}(\textbf{w}^\text{T}\textbf x) $$
其中:
- $\textbf{x}$ 是特征向量(包含偏置项)
- $\textbf{w}$ 是权重向量(包含偏置$w_0$)
- $\text{sign}(\bullet)$ 是符号函数
- $a(\textbf{x})$ 是对样本$\textbf{x}$的分类结果
2. 逻辑回归:从线性回归到概率预测
逻辑回归虽然名为"回归",但实际上是一种线性分类方法。与普通线性分类器相比,逻辑回归有一个显著优势:它不仅可以预测样本属于"+"类还是"-"类,还能预测样本属于"+"类的概率。
2.1 逻辑回归的概率预测
逻辑回归预测样本$\textbf{x}\text{i}$属于"+"类的概率为: $$ p+ = P\left(y_i = 1 \mid \textbf{x}\text{i}, \textbf{w}\right) = \sigma(\textbf{w}^\text{T}\textbf{x}\text{i}) $$
其中$\sigma(z) = \frac{1}{1 + \exp^{-z}}$是sigmoid函数,它将线性组合$\textbf{w}^\text{T}\textbf{x}$映射到[0,1]区间。
2.2 为什么使用sigmoid函数?
理解sigmoid函数的选用需要从几率比(Odds Ratio)的概念出发:
- 定义事件$X$的概率为$P(X)$
- 几率比$OR(X) = \frac{P(X)}{1-P(X)}$,表示事件发生与不发生的概率比
- 对几率比取对数得到$\log{OR(X)} \in \mathbb{R}$,这正是线性回归的输出范围
通过这三步转换,我们建立了概率与线性预测之间的联系,最终推导出使用sigmoid函数的合理性。
3. 最大似然估计与逻辑回归训练
3.1 联合概率表达
对于训练集中的样本,我们可以将正负类的概率统一表达为: $$ P\left(y = y_i \mid \textbf{x}\text{i}, \textbf{w}\right) = \sigma(y_i\textbf{w}^T\textbf{x}\text{i}) $$
这里$M(\textbf{x}\text{i}) = y_i\textbf{w}^T\textbf{x}\text{i}$被称为分类边际(margin),它反映了模型对样本分类的"置信度":
- 边际越大且为正,分类越正确且置信度高
- 边际越大且为负,分类错误且可能是异常样本
- 边际绝对值小,样本靠近决策边界
3.2 似然函数与对数损失
假设样本独立同分布(i.i.d.),整个训练集的似然函数为: $$ P\left(\textbf{y} \mid \textbf{X}, \textbf{w}\right) = \prod_{i=1}^{\ell} \sigma(y_i\textbf{w}^\text{T}\textbf{x}_\text{i}) $$
取对数后得到对数似然: $$ \log P\left(\textbf{y} \mid \textbf{X}, \textbf{w}\right) = \sum_{i=1}^{\ell} \log \sigma(y_i\textbf{w}^\text{T}\textbf{x}_\text{i}) $$
最大化似然等价于最小化对数损失函数: $$ \mathcal{L_{\log}} (\textbf X, \textbf{y}, \textbf{w}) = \sum_{i=1}^{\ell} \log (1 + \exp^{-y_i\textbf{w}^\text{T}\textbf{x}_\text{i}}) $$
3.3 为什么使用对数损失?
对数损失是0-1损失的上界,通过最小化这个上界,我们间接减少了分类错误的数量。相比于不可导的0-1损失,对数损失具有良好的数学性质,适合梯度优化。
4. 正则化与模型稳定
为了防止过拟合,我们通常会在损失函数中加入$L_2$正则化项: $$ \mathcal{J}(\textbf X, \textbf{y}, \textbf{w}) = \mathcal{L_{\log}} (\textbf X, \textbf{y}, \textbf{w}) + \lambda |\textbf{w}|^2 $$
其中$\lambda$是正则化系数,其倒数$C=1/\lambda$常被称为正则化强度的逆。正则化通过限制权重的大小,提高了模型的泛化能力。
5. 逻辑回归的实际应用
逻辑回归在实际业务中有着广泛应用,特别是在需要概率输出的场景:
- 信用评分:预测客户违约概率,按概率排序构建评分卡
- 广告点击率预测:预测用户点击广告的概率
- 医疗诊断:预测疾病发生的概率
逻辑回归的优势在于:
- 模型简单,计算效率高
- 输出具有概率解释
- 易于实现和解释
总结
本文从线性分类器的基础概念出发,详细介绍了逻辑回归的原理、概率解释、训练方法以及正则化技术。逻辑回归虽然结构简单,但通过概率输出和对数损失优化,在实际应用中表现出色。理解这些基础概念对于掌握更复杂的机器学习模型至关重要。
mlcourse.ai Open Machine Learning Course 项目地址: https://gitcode.com/gh_mirrors/ml/mlcourse.ai
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考