2.6 机器学习时代(1993-2006):支持向量机、贝叶斯网络与算法进步
在经历了第二次AI寒冬的调整后,从1990年代中期至2006年前后,人工智能的研究重心完成了向“数据驱动”范式的系统性转移,这一时期被广泛称为“机器学习时代”。机器学习不再仅仅是人工智能的一个子领域,而是演变为一系列具有坚实理论基础和强大实用性的算法与模型的集合,并开始在各行各业产生实质性影响。这一时期的标志是,若干核心机器学习模型(如支持向量机、贝叶斯网络、集成方法)在理论和应用上臻于成熟,围绕它们的算法进步、理论分析及应用实践构成了AI研究的主流。
2.6.1 背景:机器学习作为一门独立学科的成熟
1990年代初,机器学习逐渐从人工智能、统计学和模式识别等多个母体中清晰地分离出来,形成了自己独立的研究社群、核心期刊(如《Machine Learning》)和旗舰会议(国际机器学习会议,ICML;神经信息处理系统大会,NeurIPS)。这一独立进程的关键驱动力在于研究范式的统一:以概率论和统计学为基础,以从数据中自动归纳模型为核心任务,以泛化性能为终极评价标准[1]。计算学习理论(如PAC学习框架)的建立,为分析学习算法的样本复杂性和计算可行性提供了严格的数学工具[2]。与此同时,互联网的兴起和各个领域数字化进程的加速,使得中等规模的数据集日益可得,为机器学习算法的训练和测试提供了必要的“燃料”。
2.6.2 支持向量机:最大间隔分类器与核方法革命
支持向量机是这一时期最具影响力、理论基础最为坚实的监督学习模型之一,其发展标志着统计学习理论的工程化成功。
-
核心思想与理论:SVM的核心是结构风险最小化原则,旨在寻找一个能将不同类别数据分开,且具有最大几何间隔的超平面。对于线性可分数据集,最优超平面可以通过求解以下凸二次规划问题得到:
minw,b12∥w∥2s.t.yi(w⋅xi+b)≥1,∀i\min_{\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2 \quad \text{s.t.} \quad y_i(\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1, \quad \forall iw,bmin21∥w∥2s.t.yi(w⋅xi+b)≥1,∀i
其中,w\mathbf{w}w是法向量,bbb是偏置,yi∈{−1,+1}y_i \in \{-1, +1\}yi∈{−1,+1}是类别标签。其决策函数为 f(x)=sign(w⋅x+b)f(\mathbf{x}) = \text{sign}(\mathbf{w} \cdot \mathbf{x} + b)f(x)=sign(w⋅x+b)。对于非线性可分情况,通过引入松弛变量 ξi\xi_iξi 允许一定程度的误分类,即“软间隔”SVM[3]。 -
核技巧的关键突破:SVM最强大的创新在于核方法。通过一个非线性映射 ϕ\phiϕ 将输入空间的数据映射到高维特征空间,使得在原始空间中非线性可分的问题,在高维空间中可能变得线性可分。核函数 K(xi,xj)=ϕ(xi)⋅ϕ(xj)K(\mathbf{x}_i, \mathbf{x}_j) = \phi(\mathbf{x}_i) \cdot \phi(\mathbf{x}_j)K(xi,xj)=ϕ(xi)⋅ϕ(xj) 使得计算可以在原始空间进行,而无需显式计算高维的 ϕ(x)\phi(\mathbf{x})ϕ(x),这被称为“核技巧”。常用的核函数包括多项式核、高斯径向基函数核等。带核的SVM决策函数为:
f(x)=sign(∑i=1NαiyiK(xi,x)+b)f(\mathbf{x}) = \text{sign}\left( \sum_{i=1}^{N} \alpha_i y_i K(\mathbf{x}_i, \mathbf{x}) + b \right)f(x)=sign(i=1∑NαiyiK(xi,x)+b)
其中 αi\alpha_iαi 是拉格朗日乘子[4]。核方法极大地扩展了SVM的应用范围,使其成为处理文本分类、图像识别等复杂非线性问题的利器。 -
广泛应用与影响:SVM以其出色的泛化性能、清晰的理论基础和相对高效的计算(尤其对于中小规模数据),迅速在生物信息学、文本挖掘、计算机视觉等领域成为标准工具。它的成功也促进了凸优化理论在机器学习中的深入应用。
2.6.3 贝叶斯网络:概率图模型的表示与推理
贝叶斯网络为代表概率图模型,为在复杂系统中进行不确定性和因果推理提供了一个强大的框架,将图论的可视化直观与概率论的严谨性相结合。
-
表示与条件独立性:一个贝叶斯网络是一个有向无环图,其节点代表随机变量,边代表变量间的直接依赖关系。网络结构编码了条件独立性假设:每个节点在给定其父节点的条件下,独立于其非后代节点。联合概率分布可以因式分解为各节点在其父节点条件下的概率乘积:
P(X1,X2,...,Xn)=∏i=1nP(Xi∣Parents(Xi))P(X_1, X_2, ..., X_n) = \prod_{i=1}^{n} P(X_i | \text{Parents}(X_i))P(X1,X2,...,Xn)=i=1∏nP(Xi∣Parents(Xi))
这种表示极大地压缩了完整联合分布所需的参数量[5]。 -
学习与推理算法:
- 参数学习:在给定网络结构的情况下,从数据中估计条件概率表。常用方法包括最大似然估计和贝叶斯估计。
- 结构学习:从数据中学习网络拓扑结构,这是一个更具挑战性的问题。方法可分为基于约束的方法(如PC算法,通过条件独立性测试)和基于搜索评分的方法(在结构空间中搜索,优化如BIC、BDeu等评分函数)[6]。
- 概率推理:给定部分变量的观测值(证据),计算其他变量的后验分布。精确推理算法如变量消除、联结树算法,以及适用于大规模网络的近似推理算法如马尔可夫链蒙特卡洛、变分推断等在这一时期得到发展和完善。
-
扩展与应用:动态贝叶斯网络(如隐马尔可夫模型)被用于处理时间序列数据;影响图扩展了决策和效用节点,用于决策分析。贝叶斯网络在医疗诊断、故障检测、基因调控网络分析等领域得到成功应用,展示了概率方法处理不确定性和复杂依赖关系的能力。
2.6.4 其他关键算法进步与多样化发展
除了SVM和贝叶斯网络,机器学习时代还见证了其他重要范式和算法的繁荣。
-
集成学习:通过组合多个“弱学习器”来构建一个强学习器的思想被证明极其有效。AdaBoost算法通过迭代调整样本权重,专注于被之前模型错分的样本,显著提升了分类性能,并引发了关于集成方法理论解释(如与加性模型、间隔理论的关系)的热烈讨论[7]。随机森林作为Bagging思想和决策树结合的高效实现,通过引入随机特征选择,进一步提升了模型的准确性和抗过拟合能力,成为最稳定、最易用的分类器之一[8]。
-
核方法的普遍化:核技巧不仅用于SVM,还被推广到主成分分析、典型相关分析、聚类等无监督学习任务中,形成了“核机器学习”这一子领域。
-
结构化输出与序列学习:针对输出是复杂结构(如序列、树、图)的问题,条件随机场、结构化SVM等模型被提出,在自然语言处理(词性标注、命名实体识别)和生物信息学中取得重要进展。
-
无监督学习与降维:除了传统的K-means聚类,谱聚类等基于图论的方法提供了新的视角。流形学习算法(如等距特征映射、局部线性嵌入、t-SNE)旨在发现高维数据中的低维非线性结构,为数据可视化和理解提供了有力工具。
-
实用化工具与库:LIBSVM、Weka等开源软件包的发布,极大地降低了机器学习的使用门槛,促进了其在科研和工业界的普及。
表:机器学习时代(1993-2006)代表性算法、理论基础与特点
| 算法/模型类别 | 核心思想/理论基础 | 关键优势 | 典型应用领域 |
|---|---|---|---|
| 支持向量机 | 结构风险最小化,最大间隔分类,核技巧。 | 理论坚实,泛化性能好,能处理高维非线性问题。 | 文本分类、图像识别、生物信息学。 |
| 贝叶斯网络 | 概率图模型,条件独立性,贝叶斯推理。 | 直观表示变量依赖,天然处理不确定性,支持因果推理。 | 医疗诊断、故障分析、风险评估。 |
| AdaBoost | 集成学习,迭代重加权,加性模型。 | 能显著提升弱分类器性能,不易过拟合。 | 人脸检测、二分类问题。 |
| 随机森林 | Bagging集成,决策树,随机子空间。 | 高精度,抗过拟合,能评估特征重要性,训练高效。 | 各类分类与回归任务,特征选择。 |
| 核方法 | 将线性算法非线性化,无需显式特征映射。 | 灵活性高,为许多经典算法注入非线性能力。 | 与SVM、PCA等结合,用于非线性数据。 |
| 条件随机场 | 判别式图模型,全局归一化。 | 适合标注序列数据,能有效利用上下文特征。 | 自然语言处理(词性标注、命名实体识别)。 |
2.6.5 时代的贡献与局限
这一时期的机器学习研究取得了巨大成功,其贡献主要体现在:
- 理论与实践的紧密结合:大多数成功算法(如SVM、Boosting)都有相对坚实的统计学习理论支撑,同时又在实际任务中表现出色。
- 算法工具箱的极大丰富:研究者拥有了一个多样化的、可针对不同问题特性进行选择的算法库。
- 跨学科影响力:机器学习方法被广泛应用于自然科学、社会科学和工程领域,证明了其作为通用数据分析工具的威力。
然而,其局限性也日益显现:
- 特征工程的依赖性:模型的性能在很大程度上依赖于研究者手工设计或选择的特征。如何自动学习好的特征表示,仍然是一个未解决的“特征工程瓶颈”。
- 计算可扩展性:许多优秀算法(如带核的SVM)在数据集规模巨大时面临计算和存储的挑战。
- 深度表示的缺失:虽然核方法提供了非线性的能力,但其表示能力与后来深度学习所展示的、通过多层非线性变换自动学习深层特征的能力相比,仍有差距。
本章节核心知识点总结
- 学科独立与范式统一:机器学习在1990年代发展成为一门独立的学科,其核心范式是基于概率统计、从数据中归纳模型,并以泛化能力为评价标准。
- 支持向量机的核心地位:SVM基于结构风险最小化原则,通过最大间隔分类和核技巧,提供了强大的非线性分类能力,成为该时代的标志性算法。
- 贝叶斯网络的推理框架:贝叶斯网络作为概率图模型的代表,将变量间的条件依赖关系用图表示,为处理不确定性推理和因果建模提供了系统化框架,其结构学习与概率推理算法得到深入发展。
- 集成学习的显著成效:以AdaBoost和随机森林为代表的集成学习方法,通过组合多个弱模型有效提升了预测精度和稳定性,成为实践中最可靠的工具之一。
- 算法多样性与工具普及:核方法普及化、结构化输出学习、流形学习等方向共同繁荣,同时开源软件包推动了机器学习技术的广泛传播与应用。
- 成就与遗留挑战:该时代建立了机器学习丰富的算法体系与理论基础,并成功应用于众多领域,但仍严重依赖人工特征工程,且在自动学习深层数据表示和处理超大规模数据方面存在局限,这些挑战为下一阶段的深度学习革命留下了空间。
参考文献
[1] DIETTERICH T G. Machine learning research: four current directions[J]. AI Magazine, 1997, 18(4): 97-136.
[2] VALIANT L G. A theory of the learnable[J]. Communications of the ACM, 1984, 27(11): 1134-1142.
[3] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.
[4] SCHÖLKOPF B, SMOLA A J. Learning with kernels: support vector machines, regularization, optimization, and beyond[M]. Cambridge: The MIT Press, 2002.
[5] PEARL J. Probabilistic reasoning in intelligent systems: networks of plausible inference[M]. San Francisco: Morgan Kaufmann, 1988.
[6] HECKERMAN D, GEIGER D, CHICKERING D M. Learning Bayesian networks: the combination of knowledge and statistical data[J]. Machine Learning, 1995, 20(3): 197-243.
[7] FREUND Y, SCHAPIRE R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139.
[8] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
1098

被折叠的 条评论
为什么被折叠?



