线性分类方法导论：从基础概念到判别边界

秦凡湛Sheila

于 2025-06-24 09:10:27 发布

阅读量307

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00945/article/details/148862645

分类问题是机器学习中最核心的任务之一，其目标是根据输入特征将数据划分到预定义的类别中。在统计学习领域，线性分类方法因其简单性和可解释性而备受青睐。本文将系统介绍线性分类的基本概念、原理和实现方法，帮助读者建立完整的知识框架。

分类问题的核心在于划分决策区域。给定一个预测函数G(x)，我们可以根据其输出值将输入空间划分为若干个区域，每个区域对应一个特定的类别。这些区域之间的边界就是决策边界，它决定了分类器的行为。

决策边界的性质（如光滑程度、复杂度）直接影响分类器的性能。线性分类方法特别关注线性决策边界，即通过超平面来划分不同类别。

对于K个类别的分类问题，我们可以为每个类别k建立一个线性模型：

f̂ₖ(x) = β̂ₖ₀ + β̂ₖᵀx

其中：

两个类别k和l之间的决策边界就是满足f̂ₖ(x) = f̂ₗ(x)的点集，这定义了一个超平面：

{x : (β̂ₖ₀ - β̂ₗ₀) + (β̂ₖ - β̂ₗ)ᵀx = 0}

更一般地，我们可以为每个类别定义判别函数δₖ(x)，然后将样本x分类到判别函数值最大的类别。当判别函数是线性函数时，决策边界自然也是线性的。

分类问题也可以通过建模后验概率Pr(G=k|X=x)来解决。只要后验概率或其单调变换是线性的，决策边界就是线性的。

对于二分类问题，常用的logistic模型为：

Pr(G=1|X=x) = exp(β₀ + βᵀx) / [1 + exp(β₀ + βᵀx)]
Pr(G=2|X=x) = 1 / [1 + exp(β₀ + βᵀx)]

对后验概率进行logit变换后：

log[Pr(G=1|X=x)/Pr(G=2|X=x)] = β₀ + βᵀx

决策边界对应于log-odds等于0的情况，即：

{x | β₀ + βᵀx = 0}

虽然本章主要讨论线性决策边界，但通过特征变换可以扩展到非线性情况。例如：

加入二次项：
- 原始特征：X₁, X₂, ..., Xₚ
- 扩展特征：X₁², X₂², ..., X₁X₂, ...
- 这样可以在扩展空间中用线性边界，对应原始空间的二次边界
一般基函数扩展：
- 使用变换h: ℝᵖ → ℝᵠ (q > p)
- 在更高维空间中寻找线性边界
- 对应原始空间的复杂非线性边界