引言: 我原来曾经发过一个短视频,谈”概率论的意义与《概率论沉思录》的重要性“。在其中,我曾经说”人工智能的基础是机器学习,机器学习的基础是概率统计“。马上有一位朋友评价:”机器学习的基础是概率统计.?? …一知半解了吧! 机器学习的基础是:任何非线性问题都可以用线性化逼近!”我一时语塞,后来只能回复:”深度学习火爆前最主流的机器学习是统计机器学习,但是即使是深度学习也离不开概率,可以先看看机器学习三大经典教材PRML、MLaPP、ESL”。 过年期间我去湖北房县跟一位艺术家朋友交流,本来主要是品尝他造的的房县黄酒,没想到他对概率论和贝叶斯却有极大兴趣,我花费了一天时间给他解释什么是贝叶斯,他兴趣盎然。不过在与他的交流中,我才知道在一般人的印象中概率论是概率论,人工智能是人工智能,两者没有太大关联。 他也建议我写公众号文章的话,可以考虑写一篇“概率论与人工智能“关系的文章。这篇文章算是对这位朋友建议的回应。本文想论述的主要观点为:概率论是机器学习乃至人工智能的最重要基础(没有之一),未来AGI之实现几乎肯定会依赖于概率论及其发展理论。因此,若不懂概率论就不可能真正深入理解人工智能。本文框架如下:1)人工智能、机器学习与概率论的关系 2)世界经典机器学习教材中的概率论3)深度学习、大语言模型与概率论有关吗? 4)未来AGI实现与概率论。
删除
贝叶斯与图灵
人工智能、机器学习与概率论的关系
人工智能的核心目标是让机器具备类似人类的智能行为(如推理、决策、感知等)。但现实世界本质上充满不确定性。这种不确定性既是AI系统必须应对的挑战,也是其设计中的核心考量。不确定性的来源主要包括:
-
待建模系统中的内在随机性。比如量子力学系统中的内在随机性以及随机游戏(抛硬币、扔色子)中的随机性。
-
不完全观测。即使是确定系统,当我们不能观察到所有驱动系统行为的变量时,该系统也会呈现不确定性。这种不确定性甚至是跟具体的观测者相关的。比如说有一个实验者抛了一次硬币,并用手盖住,他偷偷看了一眼手下的硬币但不让观众知道,并问在场观众硬币正面朝上的概率是多少。在这个例子中,硬币正面朝上的概率对于实验者与观察者是完全不同的,由此也可见不确定性程度跟具体的观察者相关。
-
不完全建模。当我们使用模型时必须抛弃观测到的一些信息,这些抛弃的信息会导致预测结果的不确定性。
不确定性的实例有诸如自动驾驶系统需要处理激光雷达的数据噪声,自动医疗诊断系统需要处理患者症状的模糊性、自然语言处理(NLP)需要面对语义歧义以及对话系统中用户意图的不确定性。可以说,不确定性是AI系统与现实世界交互的核心特征,也是实现可靠智能的关键障碍。这里概率论的核心重要性在于提供了量化不确定性的工具。按照贝叶斯主义者的观点:对于不确定性的度量必须遵循概率原则,概率是不确定性的唯一合法表示。当然,处理不确定性的方法除了概率论外,还有Dempster-Shafer方法、真值维持系统(Truth maintenance system)以及非单调逻辑(Nonmonotonic logic)等,但是概率论方法是目前公认基础最可靠且应用最成功的方法。
人工智能的实现依赖于多种技术手段,其中机器学习是最重要的实现方式之一。机器学习是人工智能的子领域,其核心是通过数据驱动的方式让机器自动学习规律。一般认为,机器学习是计算机科学与概率统计交融形成的交叉学科,而概率论为机器学习提供了理论框架。在深度学习盛行之前,统计机器学习是机器学习的最主流的分支。概率论在机器学习的作用如下:
-
监督学习(如分类、回归):逻辑回归通过概率(sigmoid函数)输出类别可能性;贝叶斯分类器直接基于条件概率建模。
-
无监督学习(如聚类、降维):高斯混合模型(GMM)假设数据服从概率分布;隐变量模型(如VAE)通过概率生成数据。
-
强化学习:马尔可夫决策程(MDP)依赖状态转移概率;策略梯度方法通过概率分布选择动作。
总之概率论、机器学习与人工智能的层级关系为:概率论→机器学习→人工智能。概率论为机器学习提供了数学工具,而机器学习为AI提供了实现路径。概率论是机器学习及人工智能的最重要基础(没有之一)。
世界经典机器学习教材中的概率论
既然概率论对于机器学习与人工智能如此重要,为什么国内做机器学习算法研究者很少重视呢? 我以为很大原因在于国内几本有影响力的机器学习教材对于概率论介绍的不足,甚至没有单独的一章来介绍概率论。在深度学习火爆后,忽视概率统计基础甚至基础机器学习的倾向更加明显,很多学生不仅忽视概率统计,甚至还忽视传统机器学习的基础,以为只要懂深度学习就足够。按笔者自己做机器学习算法研发与应用以及学习机器学习的经验,有志于成为真正的机器学习与人工智能专家者,应该至少将自己50%以上的学习精力用在概率论(包括作为概率论后续的随机过程以及因果推断理论)以及统计学(特别是贝叶斯统计以及非参数统计)上。因为若概率统计通了,机器学习至少可以说懂了60%,若概率统计不通,则所谓机器学习的掌握则多是浮云。
在这个国际化的时代,我们实际上可以直接阅读世界范围内的经典,以免浪费精力。以下我们将看看世界范围内最经典的若干机器学习教材中的概率论部分,由此可见概率论对于机器学习的重要性。到目前为止,机器学习方面最著名的教材当属PRML、ESL、MLaPP,深度学习方面最著名的教材是号称花书的《Deep Learning》。
-
PRML(Pattern Recognition and Machine Learning,Christopher Bishop著)。本书号称贝叶斯机器学习的圣经,以贝叶斯视角贯穿全书,强调概率建模与推断的数学严谨性。本书第2章( Probability Distributions)一章介绍概率论基础,系统介绍高斯分布、指数族分布等核心分布及其性质,解释共轭先验(Conjugate Prior)在贝叶斯推断中的作用。
-
MLaPP(Machine Learning:A Probabilistic Perspective,Kevin Murphy著)。 从本书的书名就可以看出,本书完全从概率的视角来介绍机器学习,覆盖经典与现代机器学习方法。值得说明的是,作者在前言曾说明,他本来想使用“贝叶斯视角“(A Bayesian Perspective)的用词,但是鉴于”贝叶斯视角“带有意识形态性,所以才改用“概率视角”一词。 本书对于概率统计的介绍总共占了三章的篇幅,分别是第2章(Probability),第5章(Bayesian Statistics,贝叶斯统计)及第6章(Frequentist Statistics,频率派统计)。值得一提的是,本书在第2章介绍概率论时推荐的优秀参考教科书有三本,分别是Jaynes 2003 (杰恩斯《概率论沉思录》.人民邮电出版社)、Bertsekas and Tsitsiklis 2008 (《概率导论》.人民邮电出版社)和Wasserman 2004(All of statistics. A concise course in statistical inference,有中文版,但不推荐)。另外,值得说明的是,这本经典教材在2022年升级为两卷本,分为基础与提高部分,篇幅更加庞大。不知道国内是否有人完整研读完过,有志向的读者可以尝试研读。
-
ESL(The Elements of Statistical Learning, Trevor Hastie, Reobert Tibshirani and Jerome Friedman著)。本书以统计学习理论为基础,强调模型的泛化性与可解释性。这是本文介绍经典教科书中唯一没有一章介绍概率论的,也不是以贝叶斯视角,而是以传统频率派统计为基础的统计框架来介绍机器学习。介于概率论是统计学的基础,我们也会清楚其中的内容与概率统计高度相关。
-
Deep Leaning(Ian Goodfellow,Yoshua Bengio and Aaron Courville著)。本书号称“花书”,是目前世面上公认的最好的深度学习教材(也没有之一)。其中介绍概率论的是第3章(Probability and Information Theory),其中提到的两本概率论相关的参考书籍一本仍是Jaynes(2003)(《概率论沉思录》),另一本是Pearl (1988)(Probabilistic Reasoning in Intelligent Systems:Networks of Plausible Inference. 智能系统中的概率推理:合情推断网络)。Pearl这本书在国内仍没有引起足够的重视,我认为这不仅是理解AI系统的概率推理的最佳书籍之一,而且也是理解作者后续因果推断理论的链接之书。没有这本书作为基础,要直接阅读作者的《因果论》那本书其实是很难通透的。 另外值得一提的,这本最佳深度学习的教科书虽然旨在介绍深度学习,但是总共20章的书籍直到第6章才真正介绍深度学习的内容,前面主要是线性代数、概率论与信息论、数值计算以及基础机器学习的内容,作者在书中强调“为了很好理解深度学习,我们必须对于机器学习的基本原理有深刻的理解”(To understand deep learning well, one must have a solid understanding of the basic principles of machine learning)。这非常值得我们深思。
深度学习、大语言模型与概率论有关吗?
有人可能会说,你上面主要是说传统机器学习,现在已经是深度学习与大语言模型时代了,这些跟概率论还有什么关系吗? 首先应清楚人工智能、机器学习、深度学习是相互包含的关系,以上对机器学习的描述对深度学习也是适用的。概率论仍然为深度学习与大语言模型提供了数学基础和建模框架,不仅仅是概率论提供了量化不确定性的理论这一个方面。深度学习的本质是通过神经网络对数据分布进行建模,其核心目标可以归结为学习输入到输出的条件概率分布,即P(Y∣X)(监督学习)或P(X)(无监督学习)。概率论在其中的作用体验在:
-
模型输出与概率建模:对于分类分类任务:使用Softmax函数将神经网络输出转化为类别概率分布(如CNN图像分类);对于生成任务,通过概率分布生成数据(如VAE、GAN),或自回归生成序列(如Transformer生成文本)。
-
损失函数设计:交叉熵损失:基于KL散度最小化,衡量模型预测分布Q(Y∣X)与真实分布P(Y∣X) 的差异;负对数似然(NLL):直接优化模型对数据的概率似然(如语言模型的困惑度计算)。
以下通过深度学习中著名的几个模型展示其与概率论的关系:
-
CNN(卷积神经网络):这是几个重要深度学习模型中可能与概率论关联最少得一个,因为最初主要用来做图像分类,更多使用矩阵计算技术,但是即使如此,CNN的最后一层通常使用Softmax函数输出类别概率P(y=c∣x),所以还是计算概率。另外,其在空间相关性建模时卷积核也是通过局部感受捕捉空间特征的联合概率分布。
-
RNN(循环神经网络):隐状态建模:RNN的隐藏状态ht可视为对序列历史信息的概率化压缩,用于建模条件概率P(xt∣x1:t−1)。时间依赖性建模时通过链式法则分解序列联合概率。概率化生成时,对于语言模型,RNN则是预测下一个词的概率分布(如LSTM生成文本),序列标注时,BiLSTM-CRF模型通过条件随机场(CRF)建模标签转移概率。
-
Transformer: 自注意力机制中Query与Key的点积相似度经Softmax转化为概率分布,表示不同位置的重要性权重。解码器通过掩码自注意力限制当前词仅依赖上文,生成概率分布P(yt∣y1:t−1,X)作为预训练模型的代表,其预训练的目标是通过掩码语言建模(如BERT)或自回归模型(如GPT)最大化文本序列的似然概率。
我们可以看到,这些深度学习模型都与概率论有着根本的联系。
未来AGI实现与概率论
很多人对通用人工智能(AGI)满怀期待,认为它将彻底革新人类的生活与社会运转模式,有望解决诸如科学研究中的复杂难题、优化资源分配等诸多领域的棘手问题 ,成为推动人类进步的强大引擎。然而,未来AGI是否能依托目前的大语言模型框架得以实现,实际上在学界和业界都存在很大争议。
一般认为,AGI的实现目前还缺乏一些基础理论的突破。AGI需要具备理解、学习、推理和适应各种复杂环境与任务的能力,这远超出了当前大语言模型仅基于大规模数据统计和模式识别的范畴。而笔者坚信,AGI的实现将深度依赖概率论及其发展理论。概率论作为数学领域的重要分支,在处理不确定性问题上有着无可替代的作用,这在前面已经说明。同时,概率论的发展理论对于实现AGI的自适应推理与泛化能力至关重要。自适应推理要求AGI能够根据不同的环境和任务,动态调整推理策略,而泛化能力则是指AGI能够将在特定任务或场景中学习到的知识和技能应用到新的、未曾见过的情境中。作为概率论直接发展的以下两个方面尤其值得关注:
•因果推断:因果推断与反事实推理的能力是人类智能的基本能力。在日常生活中,人类能够基于因果关系理解事物之间的联系,预测行为的后果,并进行反事实思考,即思考“如果……会怎样”的假设性问题。然而,现在的大语言模型在这方面还很欠缺。大语言模型主要基于数据中的统计相关性进行学习和生成回答,难以真正理解因果关系。因果推断理论的发展可以帮助AGI挖掘数据背后的因果结构,使AGI不仅能知其然,还能知其所以然。例如,在医疗领域,AGI可以通过因果推断分析疾病与症状、治疗手段之间的因果关系,从而更准确地进行疾病诊断和治疗方案制定,而不是仅仅依据症状和疾病的统计共现关系给出判断。
•随机过程与MDP(马尔可夫决策过程):这与强化学习密切相关。强化学习是一种通过智能体与环境进行交互,根据环境反馈的奖励信号来学习最优行为策略的机器学习方法。随机过程理论为描述环境的动态变化和不确定性提供了数学基础,而MDP则为强化学习提供了一个强大的建模框架。在AGI的实现中,利用随机过程和MDP理论,AGI可以在复杂的动态环境中进行决策和学习。比如在自动驾驶场景中,车辆行驶环境充满不确定性,通过基于随机过程和MDP的强化学习算法,自动驾驶AGI可以不断学习如何在不同路况、天气和交通状况下做出最优驾驶决策,以确保行车安全和效率,逐步实现接近甚至超越人类驾驶水平的智能驾驶能力。
综上,概率论及其发展理论从处理不确定性、实现自适应推理与泛化,到赋予AGI因果推断和在动态环境中决策学习的能力等多个关键方面,都是AGI实现过程中不可或缺的理论基石,对推动AGI的发展具有不可估量的作用。
结语:通过以上阐述,本文旨在论证概率论作为人工智能学科基石的不可或缺性。对于人工智能从业者而言,深入钻研概率论及其延展理论,不仅能为技术创新奠定坚实基础,更有机会在关键领域实现突破性进展——这种理论储备既是指引技术进化的罗盘,更是突破现有范式的重要工具。 值得特别指出的是,即便非人工智能专业领域的读者,系统学习概率论等基础理论也具有显著价值。这种认知储备将帮助使用者构建科学的技术评估框架:既能精准把握大语言模型等前沿技术的优势边界,又可辨识其潜在局限,从而避免被网络上的片面信息所误导。更进一步,这种理论素养将转化为技术应用的"免疫系统",使决策者能在纷繁的技术生态中保持清醒判断。