《人工智能现代方法(第4版)》 第12章 不确定性的量化 学习笔记

贝叶斯思维与不确定性推理

AI的出现,是否能替代IT从业者? 10w+人浏览 1.5k人参与

🌧️ 从“非黑即白”到“灰度世界”

回顾第11章
我们教会了AI如何制定完美计划——
前提是它完全知道世界状态,且动作效果100%确定

但现实是

医生诊断:
  “病人发烧咳嗽,是感冒还是肺炎?”
  → 不确定,需要检查

自动驾驶:
  “前方物体是塑料袋还是石头?”
  → 不确定,需要谨慎

天气预报:
  “明天降雨概率60%”
  → 不确定,但可以量化

本章核心问题

当知识不完备、证据不确凿时,如何做出理性决策?

历史趣闻(来自文档补充):

1654年,法国赌徒梅雷骑士向数学家帕斯卡提问:
  “两个赌徒提前结束赌局,如何公平分配赌注?”
  
帕斯卡与费马通信讨论,诞生了:
  1. 概率论雏形
  2. 期望值概念
  3. 现代决策理论的基础

从此,数学开始处理“可能性”而非“确定性”。

一、不确定性下的动作:理性决策框架

🎲 不确定性无处不在

文档12.1.1节指出:
“我们对政治或战争规则的了解,
远不如对国际象棋或算术规则的了解。”

例子对比:
- 国际象棋:规则完全明确,状态完全可观测
- 医疗诊断:症状模糊,病因多重,检查有误差
- 自动驾驶:传感器噪声,行人意图未知

🤔 理性决策三要素

理性决策 = 在不确定性中最大化“期望好处”

需要三个东西:
1. 可能结果集:会发生什么?
2. 概率分布:每个结果的可能性多大?
3. 效用函数:每个结果对我多“好”?

文档12.1.2节强调:
“概率论填补了逻辑的鸿沟...
允许我们在掌握不确定信息的情况下进行严格的推理。”

⚖️ 期望效用:决策的“数学良心”

公式:
期望效用 = Σ (结果i的概率 × 结果i的效用)

例子:是否带伞?
  结果1:下雨(概率0.6),没伞 → 效用-50(淋湿)
  结果2:下雨(概率0.6),带伞 → 效用-5(麻烦)
  结果3:不下雨(概率0.4),没伞 → 效用+10(轻松)
  结果4:不下雨(概率0.4),带伞 → 效用0(一般)

计算:
  带伞的期望效用 = 0.6×(-5) + 0.4×0 = -3
  不带伞的期望效用 = 0.6×(-50) + 0.4×10 = -26
  理性选择:带伞(-3 > -26)

关键洞察

理性不是追求“绝对正确”,而是基于现有信息做出“平均最优”选择。


二、概率论基础:AI的“不确定性语言”

🔢 基本概率记号

文档12.2节系统介绍:

1. 样本空间Ω:所有可能结果的集合
   掷骰子:Ω = {1,2,3,4,5,6}

2. 事件A:样本空间的子集
   事件“偶数点”:A = {2,4,6}

3. 概率P(A):事件发生的可能性
   公理:
     a) 非负性:P(A) ≥ 0
     b) 规范性:P(Ω) = 1
     c) 可加性:互斥事件概率可加

4. 随机变量X:将结果映射到数值
   骰子点数:X(1)=1, X(2)=2...

📝 概率断言的语言

两种表述方式:

1. 命题形式:
   P(发烧 = 真 | 流感 = 真) = 0.9
   “如果得了流感,那么发烧的概率是90%”

2. 概率密度形式(连续变量):
   P(身高 = x) = f(x) (身高分布曲线)

🧠 概率公理为什么合理?

柯尔莫哥洛夫公理体系(1933年):
1. 非负性:概率不能为负
   → 合理:可能性最小为0(不可能)

2. 规范性:总概率为1
   → 合理:所有可能结果覆盖100%

3. 可加性:互斥事件概率相加
   → 合理:A或B发生 = P(A)+P(B)
   例:掷骰子得1或2的概率 = 1/6+1/6=1/3

这些公理如此自然,以至于我们常忘记它们是“规定”
而非“发现”。

三、完全联合分布:概率世界的“全景地图”

🗺️ 什么是完全联合分布?

假设只有三个布尔变量:
  A:感冒(是/否)
  B:发烧(是/否)
  C:咳嗽(是/否)

完全联合分布 = 列出所有2³=8种组合的概率:

P(A=是, B=是, C=是) = 0.03
P(A=是, B=是, C=否) = 0.02
P(A=是, B=否, C=是) = 0.05
P(A=是, B=否, C=否) = 0.10
P(A=否, B=是, C=是) = 0.01
P(A=否, B=是, C=否) = 0.04
P(A=否, B=否, C=是) = 0.20
P(A=否, B=否, C=否) = 0.55
总和 = 1.00

🔍 从联合分布进行推断

文档12.3节核心方法:

问题:已知病人发烧,问感冒的概率?

步骤:
1. 找出所有“发烧=是”的情况:
   (A=是,B=是,C=是): 0.03
   (A=是,B=是,C=否): 0.02
   (A=否,B=是,C=是): 0.01
   (A=否,B=是,C=否): 0.04
   总和 = 0.10

2. 其中“感冒=是”的情况:
   (A=是,B=是,C=是): 0.03
   (A=是,B=是,C=否): 0.02
   总和 = 0.05

3. 条件概率:
   P(感冒|发烧) = 0.05 / 0.10 = 0.5

结论:发烧的病人,有50%概率感冒。

⚠️ 联合分布的致命缺陷

问题规模爆炸:
- 10个布尔变量 → 2¹⁰ = 1024种组合
- 20个布尔变量 → 2²⁰ ≈ 100万种组合
- 100个变量 → 2¹⁰⁰ ≈ 1.3×10³⁰种组合
  (比宇宙原子数还多)

存储不可能,计算更不可能!
需要更聪明的方法...

四、独立性:概率世界的“简化魔法”

🎯 独立性的直观理解

两个事件独立 = 一个发生不影响另一个的概率

例子:
  A:第一次掷骰子得6
  B:第二次掷骰子得6
  P(B|A) = P(B) = 1/6
  → 独立(第一次结果不影响第二次)

反例:
  A:今天下雨
  B:地面湿
  P(B|A) > P(B)
  → 不独立(下雨增加地面湿的概率)

📐 条件独立性:更微妙的简化

文档12.4节关键概念:

三个变量X,Y,Z:
  X和Y在给定Z的条件下独立
  记作: (X ⊥ Y | Z)

含义:知道了Z,X就不能提供关于Y的额外信息

经典例子(文档12.2.2):
  X:草坪湿
  Y:下雨
  Z:洒水器开
  
  如果不知道Z:
    X和Y相关(草坪湿可能是因为下雨)
  
  如果已知Z=是(洒水器开了):
    X和Y独立(草坪湿已知是洒水器导致,与下雨无关)

🌉 独立性如何简化计算?

没有独立性:
  P(A,B,C,D,E) 需要2⁵=32个参数

如果所有变量独立:
  P(A,B,C,D,E) = P(A)P(B)P(C)P(D)P(E)
  只需要5个参数!

现实通常介于两者之间:
  部分独立,部分条件独立
  → 贝叶斯网络的用武之地(第13章)

五、贝叶斯法则:概率推理的“瑞士军刀”

🔄 贝叶斯法则公式

从条件概率定义出发:
P(A|B) = P(A,B) / P(B)  (1)
P(B|A) = P(A,B) / P(A)  (2)

由(2)得 P(A,B) = P(B|A)P(A)
代入(1):
P(A|B) = P(B|A)P(A) / P(B)

这就是贝叶斯法则!

🧩 公式解读

P(A|B):后验概率(我们想求的)
  “在观察到B后,A为真的概率”

P(B|A):似然(通常已知)
  “如果A为真,观察到B的可能性”

P(A):先验概率(我们的初始信念)
  “在观察任何证据前,A为真的概率”

P(B):证据概率(归一化常数)
  “观察到B的总概率”

🔬 应用1:简单诊断(文档12.5.1)

问题:某疾病发病率1%,检测准确率99%
      某人检测阳性,问实际患病的概率?

设:
  D:患病(先验P(D)=0.01)
  T:检测阳性
  
已知:
  P(T|D) = 0.99 (患者检测阳性概率)
  P(T|¬D) = 0.01 (健康人误检概率)

求:P(D|T)

计算:
  P(D|T) = P(T|D)P(D) / P(T)
  P(T) = P(T|D)P(D) + P(T|¬D)P(¬D)
        = 0.99×0.01 + 0.01×0.99 = 0.0198
  
  所以:
  P(D|T) = (0.99×0.01) / 0.0198 ≈ 0.5

惊人结果:即使检测准确率99%,
          阳性者实际患病概率只有50%!
          因为疾病本身太罕见。

📊 应用2:合并证据(文档12.5.2)

现实:有多个证据源
  症状B:发烧
  症状C:咳嗽
  问疾病A的概率?

朴素方法(错误):
  P(A|B,C) ∝ P(B,C|A)P(A)
  但P(B,C|A)很难直接得到!

聪明方法:假设条件独立
  P(B,C|A) = P(B|A)P(C|A)
  如果症状在给定疾病下独立

则:
  P(A|B,C) ∝ P(B|A)P(C|A)P(A)

可以逐个证据更新:
  先根据发烧更新信念
  再根据咳嗽更新信念
  结果相同(因为乘法可交换)

📧 应用3:垃圾邮件过滤(文档12.6节)

朴素贝叶斯分类器:
  判断邮件是垃圾(Spam)还是正常(Ham)

特征:邮件中的单词
  如:“免费”、“赚钱”、“发票”...

假设:单词在给定类别下条件独立
  (虽然不完全成立,但效果不错)

公式:
  P(Spam|单词1,单词2,...)
    ∝ P(Spam) × Π P(单词i|Spam)

训练:从已标注邮件统计
  P(单词|Spam):垃圾邮件中单词出现频率
  P(单词|Ham):正常邮件中单词出现频率

实际:Gmail等邮箱的早期过滤系统
      准确率可达99.9%

六、重游Wumpus世界:概率推理实战

🎮 Wumpus世界回顾

第7章的逻辑版Wumpus:
  - 用逻辑规则推理
  - 确定性地知道“有臭味→相邻有怪物”
  - 但现实:传感器有误差!

概率版Wumpus:
  - 臭味传感器:有怪物时80%报警,没有时10%误报
  - 需要概率推理!

🧭 概率推理过程

场景:智能体在(1,1),闻到臭味
      问:相邻格子(1,2)、(2,1)有怪物的概率?

已知:
  - 怪物在16个格子中的某一个
  - 先验:每个格子有怪物概率1/16
  - 传感器模型:
      P(臭味|相邻有怪物) = 0.8
      P(臭味|不相邻有怪物) = 0.1

计算:
  考虑所有可能的怪物位置
  根据传感器读数更新概率
  
结果:
  (1,2)和(2,1)的概率最高
  但非100%!可能传感器误报

📈 与逻辑推理对比

逻辑推理:
  “有臭味 → 相邻有怪物(100%确定)”
  如果传感器故障,结论错误

概率推理:
  “有臭味 → 相邻有怪物的概率从6.25%提升到~70%”
  但仍有30%可能是传感器误报
  更稳健,更符合现实

🔁 持续更新信念

概率推理的优势:
  新证据到来 → 更新概率

例子:
  第一步:闻到臭味 → (1,2)怪物概率70%
  第二步:走到(1,2)没死 → 怪物概率下降
  第三步:在(2,1)闻到更浓臭味 → 概率重新上升
  
像侦探破案:随着线索积累,调整嫌疑度

七、概率 vs 确定性因子:MYCIN系统的智慧

🏥 MYCIN系统背景

1970年代斯坦福的专家系统
目标:诊断血液感染,推荐抗生素

挑战:
  1. 医学知识不确定
  2. 没有完美理论模型(不像DENDRAL的化学规则)
  3. 需要融合多个不确定证据

🎯 确定性因子(CF)方法

MYCIN的简化概率:
  每个规则有确定性因子CF ∈ [-1, 1]
    CF = 1:完全确定
    CF = 0:完全不确定
    CF = -1:完全否定

组合规则:
  CF组合 = CF1 + CF2 - CF1×CF2 (同向)
  其他组合公式处理冲突证据

优点:
  - 医生直觉匹配(“很可能”、“不太可能”)
  - 计算简单
  - 不需要完整概率分布

⚖️ CF vs 概率:哲学差异

概率论:
  - 频率主义:长期重复中的比例
  - 贝叶斯主义:主观信念程度

确定性因子:
  - 实用主义:有效就行
  - 认知因素:反映确信程度,不一定是客观概率

MYCIN成功证明:
  有时“足够好”的近似比“完全正确”的理论更实用

📚 历史意义

MYCIN的影响:
1. 证明AI可达到专家水平(甚至超越初级医生)
2. 开创不确定推理的实用方法
3. 催生后续专家系统(如XCON配置系统)
4. 启发后来的概率图模型

文档提到:
  “MYCIN规则不得不从大量的专家访谈中获得”
  → 知识获取成为AI关键问题

八、不确定性的哲学与历史

🧠 从亚里士多德到贝叶斯

文档1.1.3-1.1.4节的历史脉络:

1. 亚里士多德(公元前):
   - 三段论逻辑:确定推理
   - “苏格拉底是人,人皆有一死 → 苏格拉底会死”
   - 但无法处理“苏格拉底可能感冒”

2. 卡尔达诺(16世纪):
   - 首次系统研究概率(为了赌博!)
   - 《论赌博游戏》出版于死后(1663)

3. 帕斯卡与费马(1654):
   - 通信解决“点数问题”
   - 奠定期望值概念

4. 贝叶斯(18世纪):
   - 提出“逆概率”(后验概率)
   - 贝叶斯法则:根据新证据更新信念

📊 统计学诞生

1662年:约翰·格兰特
  - 分析伦敦人口普查数据
  - 发现男婴出生率略高于女婴(51% vs 49%)
  - 开创人口统计学

1922年:罗纳德·费舍尔
  - 整合概率、实验设计、数据分析
  - 需要机械计算器“百万富翁”辅助
  - 感叹计算器比年薪还贵!

显示:概率理论需要计算工具支撑

🤖 AI中的不确定性处理演进

1950-60s:逻辑主义主导
  - 试图用逻辑规则描述一切
  - 遇到现实不确定性时崩溃

1970s:专家系统兴起
  - MYCIN的确定性因子
  - PROSPECTOR的贝叶斯网络雏形

1980s:概率图模型成熟
  - 贝叶斯网络(第13章)
  - 马尔可夫网络

1990s-现在:深度学习+概率
  - 神经网络输出概率分布
  - 贝叶斯深度学习
  - 不确定性的量化成为AI安全核心

🧩 本章思想实验

🎯 三门问题(蒙提霍尔问题)

游戏规则:
  三扇门,一扇后有汽车,两扇后有山羊
  你选一扇(比如1号)
  主持人(知道答案)打开另一扇有山羊的(比如3号)
  问:该坚持原选,还是换到2号?

直觉:剩下两扇门,各50%概率有车
实际:换门胜率2/3,坚持胜率1/3

贝叶斯解释:
  设C₁:车在1号,C₂:车在2号,C₃:车在3号
  初始:P(C₁)=P(C₂)=P(C₃)=1/3
  
  主持人打开3号(H₃):
    P(H₃|C₁)=1/2 (随机开2或3)
    P(H₃|C₂)=1   (只能开3,因2有车)
    P(H₃|C₃)=0   (不会开有车的)
  
  贝叶斯更新:
    P(C₁|H₃) = (1/2×1/3) / P(H₃) = 1/3
    P(C₂|H₃) = (1×1/3) / P(H₃) = 2/3
    
  所以该换!

🌡️ 新冠检测的贝叶斯思考

现实版:
  疾病患病率:0.1%(先验)
  检测灵敏度:99%(患者中阳性率)
  检测特异度:99%(健康人中阴性率)
  
  检测阳性后,实际患病概率?
  
计算:
  P(病|阳) = (0.99×0.001) / [0.99×0.001 + 0.01×0.999]
           ≈ 9%
  
  即使检测“99%准确”,
  阳性者实际患病概率只有9%!
  因为疾病本身罕见。
  
启示:理解基础概率(先验)至关重要。

💎 本章核心洞见

🎯 概率不是“模糊”,而是“精确描述不确定”

确定性逻辑:
  “如果A,则B”
  非真即假

概率逻辑:
  “如果A,则以概率p得到B”
  量化不确定性程度

🔄 贝叶斯思维:持续更新的世界观

贝叶斯推理的本质:
  先验信念 + 新证据 → 更新后的后验信念
  
像科学方法:
  提出假设(先验)
  实验检验(收集证据)
  修正理论(后验)
  循环往复

⚖️ 期望效用:不确定世界的决策指南

理性决策 = 最大化期望效用
  不是最大化“可能的最好结果”
  也不是最小化“可能的最坏结果”
  而是考虑所有可能性的加权平均

这解释了:
  - 为什么买保险(小损失避免大灾难)
  - 为什么投资分散(不把所有鸡蛋放一个篮子)
  - 为什么理性人有时选择“次优但稳定”

🔮 从MYCIN到现代AI

历史教训:
1. 纯逻辑处理不了现实不确定性
2. 实用近似有时比理论完美更有效
3. 概率提供了统一框架,但计算是挑战
4. 最终需要结合:
   - 概率理论(严谨)
   - 近似算法(可行)
   - 领域知识(有效)

🚀 下一章预告:概率推理的网络化

第12章我们学会了:

  • 用概率量化不确定性
  • 用贝叶斯法则更新信念
  • 在不确定下做理性决策

但问题
完全联合分布维度爆炸
现实问题有成百上千个变量
无法列出所有组合的概率。

第13章《概率推理》将解决

如何用“网络结构”高效表示和计算高维概率分布?

贝叶斯网络

  • 有向图表示变量依赖关系
  • 只存储局部条件概率
  • 实现高效推理
  • 成为现代AI概率模型的基石

从“概率计算”到“概率推理网络”
AI处理不确定性的能力将指数级提升


本章结束语

确定性是奢侈品,不确定性是常态。
概率论不是放弃精确,而是用数学的严谨拥抱现实的不完美。
从赌徒的问题到医学诊断,从垃圾邮件过滤到自动驾驶,
贝叶斯法则教会AI:在不确定的世界中,如何保持理性的光芒。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值