监督学习(Supervised Learning)是机器学习中最基础、应用最广泛的理论框架,其核心是通过带标签的训练数据学习输入到输出的映射关系。以下是监督学习的理论源流、关键方法及发展脉络的梳理:
一、理论起源与奠基
-
统计学习基础(1940s-1960s)
- Fisher判别分析(1936):R.A. Fisher提出线性判别分析(LDA),为分类问题提供统计基础。
- 感知机(1957):Frank Rosenblatt提出首个可训练的神经网络模型,奠定监督学习的雏形。
- 最小二乘法:高斯和Legendre的经典方法被形式化为监督回归的基础。
-
VC理论与学习理论(1960s-1970s)
- Vapnik-Chervonenkis(VC)理论:提出学习模型的容量(Capacity)和泛化误差界限,为结构风险最小化提供理论支撑。
- No Free Lunch定理(1976):Wolpert指出没有普适最优算法,强调问题依赖的模型设计。
二、经典方法的发展
-
线性模型与广义线性模型
- 逻辑回归(1958):将线性模型扩展到分类问题,使用最大似然估计。
- 支持向量机(SVM,1992):Vapnik引入核技巧,将线性分类扩展到非线性高维空间。
-
决策树与集成方法
- ID3算法(1986):Quinlan提出基于信息增益的决策树。
- 随机森林(2001)和GBDT(1999):Breiman和Friedman分别提出集成学习框架,提升泛化能力。
-
概率图模型
- 朴素贝叶斯(1960s):基于贝叶斯定理的生成式模型。
- 隐马尔可夫模型(HMM)和条件随机场(CRF):用于序列标注任务。
三、深度学习的革命(2010s至今)
-
神经网络复兴
- 反向传播(1986):Rumelhart等人重新推广,解决多层网络训练问题。
- 卷积神经网络(CNN,1998):LeCun提出LeNet,2012年AlexNet在ImageNet竞赛中突破。
- Transformer(2017):Vaswani等人提出自注意力机制,主导NLP和CV任务(如BERT、GPT)。
-
监督学习的扩展
- 半监督学习:结合少量标注数据和大量无标注数据(如MixMatch)。
- 自监督学习:通过 pretext task 自动生成标签(如对比学习SimCLR)。
四、理论挑战与前沿
-
泛化性研究
- 双下降现象:模型参数超过样本量时泛化误差再次下降,挑战传统偏差-方差权衡理论。
- 神经切线核(NTK):解释无限宽神经网络的收敛行为。
-
鲁棒性与可解释性
- 对抗样本:Goodfellow发现深度模型对微小扰动敏感,催生对抗训练。
- SHAP值/LIME:局部解释模型决策的透明性。
-
大数据与小样本
- 迁移学习:预训练模型(如ResNet、GPT)适应下游任务。
- 元学习(MAML):模型快速适应新任务。
五、核心理论框架
-
损失函数优化
- 经验风险最小化(ERM)与正则化(L1/L2)。
- 梯度下降及其变体(SGD、Adam)。
-
偏差-方差分解
- 模型复杂性与过拟合的权衡。
-
贝叶斯视角
- 最大后验估计(MAP)与高斯过程。
总结
监督学习理论从统计学习出发,历经符号主义、连接主义的迭代,最终在深度学习时代实现爆发。其发展始终围绕模型容量、数据效率和泛化能力三大核心问题,未来可能进一步与因果推理、强化学习融合,突破对标注数据的依赖。