2.5 第二次寒冬与统计学习崛起(1987-1993):专家系统局限与概率方法复兴
以专家系统为代表的“知识工程”范式在1980年代中期达到其影响力的顶峰,旋即因自身固有的理论缺陷与工程瓶颈而迅速陷入停滞。与此同时,一股基于概率论与数据驱动思想的潜流开始复兴,并最终在1990年代初成为推动人工智能走出低谷、走向现代形态的主要力量。从1987年到1993年,AI领域经历了第二次明显的低谷期,但这次“寒冬”的本质与第一次不同:它并非整个领域的全面萎缩,而是一次深刻的范式转换——以符号逻辑和显式知识表示为核心的传统AI路径遭遇瓶颈,而以概率统计和学习算法为核心的“统计学习”路径则逐步确立其主流地位。
2.5.1 专家系统范式的内在局限与系统性困境
专家系统的衰落并非源于外部批判,而是其内在缺陷在规模化应用中暴露无遗的结果。
-
知识获取瓶颈:构建专家系统的核心成本与障碍在于“知识获取”。这一过程极度依赖知识工程师与领域专家的手动协作,效率低下、代价高昂,且难以保证知识的一致性与完备性。随着系统规模扩大,维护和更新庞大的规则库变得异常困难,成为无法持续扩展的“阿喀琉斯之踵”。
-
系统的脆弱性与狭窄性:专家系统在严格限定的“微世界”中表现优异,但极度缺乏鲁棒性和常识。一旦输入信息略微超出预设范围或遇到规则库未涵盖的边缘情况,系统性能会断崖式下跌,甚至产生违背常理的错误输出。这暴露了其智能的“脆弱”本质——它只是对专家行为的模仿,而非对世界的理解。
-
非单调推理与不确定性的挑战:现实世界的知识常常是不确定的、暂定的和可废止的。新证据可能推翻旧结论。传统基于一阶逻辑的专家系统框架难以优雅地处理这种不确定性。MYCIN等系统引入的确信度因子等特设方法缺乏坚实的数学基础,且难以在不同系统间传递和组合[1]。
-
常识知识的缺失:这是最根本的挑战。人类专家依赖海量的、难以言明的背景常识进行推理,而将这些常识形式化为规则被证明是“常识知识问题”,其难度远超早期预期。没有常识支撑,系统无法真正理解其操作领域的语义,其“智能”始终停留在表面[2]。
这些局限导致专家系统项目开发周期长、成本高、维护难,且应用范围极其狭窄。到1980年代末,商业界对专家系统的投资热情迅速消退,许多大型项目未能交付预期价值,标志着以纯粹知识工程为核心的AI商业浪潮告一段落。
2.5.2 统计学习方法的复兴:理论基础与新工具
当符号主义陷入困境时,另一条植根于数理统计、模式识别和早期神经网络的路径开始获得新生。其复兴建立在几个关键进展之上:
-
坚实的概率论基础:与专家系统中基于规则和逻辑的“硬”推理不同,统计学习方法将不确定性置于核心。它采用概率论(尤其是贝叶斯定理)作为统一框架,用于从带噪声的数据中进行推理、学习和决策。例如,在分类问题中,给定特征向量 x⃗\vec{x}x,贝叶斯分类器通过计算后验概率 P(Ck∣x⃗)P(C_k | \vec{x})P(Ck∣x) 来决定类别 CkC_kCk:
P(Ck∣x⃗)=P(x⃗∣Ck)P(Ck)P(x⃗)P(C_k | \vec{x}) = \frac{P(\vec{x} | C_k) P(C_k)}{P(\vec{x})}P(Ck∣x)=P(x)P(x∣Ck)P(Ck)
这种基于概率的表述天然能够处理噪声、缺失数据和不确定性,为构建更鲁棒的模型提供了理论基础。 -
机器学习算法的突破与完善:
- 反向传播算法的重新发现与普及:1986年,鲁梅尔哈特、欣顿和威廉姆斯等人发表《通过误差传播学习内部表示》一文,系统阐述了反向传播算法及其在多层神经网络(即后来所谓的“深度学习”雏形)训练中的应用[3]。这理论上解决了明斯基和帕佩特在《感知机》中提出的多层网络训练难题,为连接主义的复苏点燃了火种。
- 支持向量机理论基础的奠定:弗拉基米尔·瓦普尼克等人于1992年左右完善了支持向量机的统计学习理论框架[4]。SVM基于结构风险最小化原则,通过寻找最大间隔超平面来实现分类,具有良好的理论保障和泛化能力,成为随后二十年中最主流的分类工具之一。
- 概率图模型的兴起:Judea Pearl等人于1980年代提出的贝叶斯网络,提供了一种用有向无环图表示变量间概率依赖关系的强大框架[5]。它结合了图论的可视化直观与概率推理的严谨性,为处理复杂系统中的不确定性推理开辟了新道路。
-
计算能力的提升与数据可用性增加:摩尔定律的持续作用使得个人计算机和工作站的计算能力足以处理中等规模的统计学习任务。同时,数字化数据开始积累,为基于数据驱动的学习方法提供了必要的“燃料”。
2.5.3 研究社区的转变与“AI分裂”
这一时期,AI研究社区发生了显著的分化与转向,常被称为“AI分裂”。
- “AI”一词的污名化与领域重组:由于专家系统未能兑现其宏大承诺,“人工智能”在企业和资助机构眼中再次成为“过度承诺”的代名词。许多研究者为了获得经费和学术认可,开始淡化自己工作的“AI”标签,转而融入或创建新的子领域。
- 新兴领域的独立与繁荣:
- 机器学习:逐渐从AI的一个子领域成长为拥有独立会议(如ICML,1993年后影响日增)和鲜明身份的核心学科。其关注点从模拟智能行为,转向了从数据中自动发现模式和规律的算法与理论。
- 计算学习理论:由Leslie Valiant等人奠基,为机器学习提供了严格的数学分析框架,研究算法的可学习性、样本复杂性和计算复杂性[6]。
- 数据挖掘与知识发现:作为对数据库技术和机器学习需求的回应,专注于从大型数据集中自动提取有用模式,更具商业应用导向。
- 智能代理与多代理系统:研究能感知环境并自主行动的实体,关注交互与协作,部分继承了分布式AI的思想。
- 神经网络研究的复兴:在反向传播算法的推动下,神经网络研究在1980年代末迎来小高潮。尽管受限于计算能力和数据,尚未产生颠覆性应用,但它为研究者提供了处理感知、分类等“亚符号”问题的新工具,与擅长符号推理的传统方法形成互补。
2.5.4 走出低谷:新的范式与评测标准
到1990年代初期,一种新的共识正在形成:智能系统的构建,不应主要依赖于人工编码的静态知识库,而应依赖于从数据中自动学习的概率模型和自适应算法。这一转变的标志性事件包括:
- 概率方法在核心AI任务中的成功:在语音识别领域,隐含马尔可夫模型完全取代了之前的基于规则和模板的方法,成为工业标准[7]。在机器翻译中,统计方法(基于双语语料库的统计模型)开始挑战并最终超越了基于规则的方法。
- 评测文化的兴起:为了客观衡量进展、避免空谈,研究者开始依赖公开数据集和标准化评测。这在自然语言处理等领域尤为明显,推动了研究向务实、可复现的方向发展。
第二次AI寒冬因此呈现出一种“结构性调整”的特征:旧的、陷入瓶颈的范式(知识工程)衰退,而新的、更具生命力的范式(统计学习)在理论和工具上完成了关键的积累,为下一次飞跃做好了准备。
表:第二次寒冬期(1987-1993)核心事件与范式转换脉络
| 维度 | 专家系统/符号主义范式(陷入困境) | 统计学习/连接主义范式(复兴积累) |
|---|---|---|
| 核心问题 | 知识获取瓶颈、系统脆弱性、缺乏常识、难以处理不确定性。 | 如何从数据中自动学习有效的模型与表示。 |
| 理论基础 | 一阶谓词逻辑、产生式规则、启发式搜索。 | 概率论与数理统计、统计学习理论、计算学习理论。 |
| 方法论 | 知识工程师手动编码领域知识,构建基于规则的推理系统。 | 设计能从数据中调整参数的算法(如反向传播、SVM优化),实现自动归纳。 |
| 关键技术进展 | 大型商业化专家系统的部署与维护暴露出根本性难题。 | 反向传播算法普及、支持向量机理论完善、贝叶斯网络框架提出。 |
| 应用领域状况 | 商业应用遇冷,投资撤退,项目难以扩展和维持。 | 在语音识别(HMM)、光学字符识别(神经网络)等感知类任务中取得突破。 |
| 研究社区生态 | “AI”标签被污名化,传统AI会议影响力相对下降。 | 机器学习(ML)、神经网络(NN)、数据挖掘(KDD)等新兴子领域会议兴起并独立。 |
| 对不确定性的处理 | 特设方法(如确信度因子),缺乏统一理论基础。 | 基于概率论(贝叶斯框架)的统一、严谨处理。 |
| 最终走向 | 作为独立系统衰落,但其知识表示思想被部分吸收进后续系统。 | 在理论和工具上完成关键储备,于1990年代中期后逐渐成为AI研究的主流范式。 |
本章节核心知识点总结
- 专家系统范式的根本局限:其衰落主要由知识获取瓶颈、系统脆弱性与狭窄性、难以处理非单调推理与不确定性以及完全缺乏常识知识等内在缺陷导致,这些缺陷在规模化商业应用中暴露无遗。
- 统计学习复兴的理论与算法基石:概率论(尤其是贝叶斯方法)提供了处理不确定性的严谨框架;反向传播算法的普及解决了多层网络训练问题,复兴了连接主义;支持向量机理论提供了具有强大泛化能力的分类工具;贝叶斯网络为复杂概率推理提供了新的建模框架。
- “AI分裂”与研究社区重组:传统“AI”领域声望受损,研究力量向新兴的子领域分流和重组,机器学习、神经网络、数据挖掘等逐步形成独立而繁荣的学术社区,拥有各自的会议和身份认同。
- 范式转换的实质:第二次寒冬标志着AI研究的主导范式从依靠人工编码的符号知识和逻辑推理,转向依靠从数据中自动学习的概率模型和自适应算法。这是一次从“基于知识”到“基于数据”、从“符号处理”到“统计归纳”的深刻方法论转变。
- 走出低谷的路径:新范式在语音识别、模式分类等具体任务上取得了优于传统方法的实质性进展,并且通过建立公开数据集和标准化评测的文化,推动了研究的务实化和可积累性,为1990年代后期及21世纪的腾飞奠定了基础。
参考文献
[1] HECKERMAN D E, SHORTLIFFE E H. From certainty factors to belief networks[J]. Artificial Intelligence in Medicine, 1992, 4(1): 35-52.
[2] DREYFUS H L, DREYFUS S E. Mind over machine: the power of human intuition and expertise in the era of the computer[M]. New York: Free Press, 1986: 1-20.
[3] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536.
[4] BOSER B E, GUYON I M, VAPNIK V N. A training algorithm for optimal margin classifiers[C]//Proceedings of the fifth annual workshop on Computational learning theory. Pittsburgh: ACM, 1992: 144-152.
[5] PEARL J. Probabilistic reasoning in intelligent systems: networks of plausible inference[M]. San Francisco: Morgan Kaufmann, 1988.
[6] VALIANT L G. A theory of the learnable[J]. Communications of the ACM, 1984, 27(11): 1134-1142.
[7] RABINER L R. A tutorial on hidden Markov models and selected applications in speech recognition[J]. Proceedings of the IEEE, 1989, 77(2): 257-286.
1948

被折叠的 条评论
为什么被折叠?



