监督学习(Supervised Learning)是机器学习中最基础、应用最广泛的范式之一,其核心是通过标注数据训练模型,使其能够对未知数据做出预测或分类。以下是监督学习的理论体系树状梳理,涵盖核心概念、算法分类、数学基础及关键问题:
监督学习理论树
1. 基础概念
- 定义:从标注数据(输入-输出对 ({(x_i, y_i)}))中学习映射函数 (f: X \rightarrow Y)。
- 关键要素:
- 输入空间(X):特征向量(如文本、图像、数值)。
- 输出空间(Y):
- 分类问题:离散标签(如二分类 (Y \in {0,1})、多分类)。
- 回归问题:连续值(如房价预测)。
- 假设空间(H):模型可能的函数集合(如线性函数、神经网络)。
- 损失函数(L):量化预测误差(如交叉熵、均方误差)。
2. 算法分类
监督学习算法可按模型类型和任务目标分为以下几类:
2.1 基于模型的分类
-
生成模型(Generative):
- 学习联合概率分布 (P(X,Y)),通过贝叶斯定理计算 (P(Y|X))。
- 典型算法:朴素贝叶斯、隐马尔可夫模型(HMM)、高斯混合模型(GMM)。
- 特点:可生成数据样本,但对分布假设敏感。
-
判别模型(Discriminative):
- 直接学习决策边界 (P(Y|X)) 或映射 (f(X))。
- 典型算法:逻辑回归、支持向量机(SVM)、决策树、神经网络。
- 特点:通常分类性能更好,但无法生成数据。
2.2 基于任务的分类
-
分类(Classification):
- 线性分类器:感知机、逻辑回归。
- 非线性分类器:核SVM、决策树、随机森林、深度学习。
-
回归(Regression):
- 线性回归:最小二乘法、岭回归(L2正则化)。
- 非线性回归:多项式回归、支持向量回归(SVR)、神经网络。
3. 数学基础
-
统计学习理论:
- 经验风险最小化(ERM):最小化训练误差 (\frac{1}{n}\sum L(f(x_i), y_i))。
- 结构风险最小化(SRM):加入正则化项防止过拟合(如L1/L2正则化)。
- VC维:描述模型复杂度,与泛化能力相关。
-
优化方法:
- 梯度下降:SGD、Adam、Adagrad。
- 凸优化:适用于逻辑回归、SVM等凸问题。
- 启发式优化:遗传算法(用于非凸问题如神经网络)。
4. 关键问题与解决方案
-
过拟合(Overfitting):
- 正则化:L1(稀疏性)、L2(平滑性)。
- 交叉验证:划分训练集/验证集。
- 早停(Early Stopping):监控验证集性能。
-
欠拟合(Underfitting):
- 增加模型复杂度:如添加多项式特征、使用深层网络。
- 特征工程:构造更有意义的特征。
-
数据不平衡:
- 重采样:过采样少数类(SMOTE)、欠采样多数类。
- 代价敏感学习:调整损失函数权重。
5. 扩展与前沿
-
集成学习:
- Bagging:随机森林(降低方差)。
- Boosting:AdaBoost、XGBoost(降低偏差)。
-
深度学习:
- 神经网络:CNN(图像)、RNN(序列)、Transformer(NLP)。
- 端到端学习:自动特征提取(如ResNet、BERT)。
-
可解释性:
- SHAP值、LIME方法(解释黑盒模型)。
总结
监督学习的理论体系从统计学习理论出发,通过不同的模型假设、优化方法和问题解决方案,构建了一套完整的框架。其核心目标是在偏差-方差权衡中找到一个泛化能力强的模型。随着深度学习的发展,监督学习在复杂任务(如图像识别、自然语言处理)中展现出强大能力,但同时也面临数据依赖、可解释性等挑战。