深入理解概率论与信息论在机器学习中的应用
1 概率论:不确定性的数学框架
在计算机科学的许多分支中,处理的实体通常是完全确定和确切的。程序员通常可以假设CPU将无误地执行每条机器指令。然而,机器学习却大量使用概率论,这是因为机器学习必须处理不确定性和随机性。
1.1 不确定性的来源
不确定性可以从多个来源产生:
1. 内在随机性 :例如,量子力学描述亚原子粒子的行为是概率性的。
2. 观测不完全 :即使是确定性系统,如果不能完全观测到所有驱动系统行为的变量,也会显得随机。例如,在蒙提霍尔问题中,参赛者无法知道门后的奖品位置。
3. 建模不完全 :当模型必须丢弃一些已观察到的信息时,这些信息会导致模型预测中的不确定性。
1.2 概率论的应用
概率论在人工智能中有两大主要应用:
- 指导AI系统的推理 :概率论规定了AI系统应该如何进行推理,因此我们设计算法来计算或近似使用概率论推导出的各种表达式。
- 理论分析AI系统的性能 :我们可以使用概率和统计学来分析AI系统的性能。
2 信息论:量化不确定性
信息论是应用数学的一个分支,围绕着量化信号中包含的信息量。最初,信息论是为了研究在有噪声的通道上发送离散字母表的消息而发明的。例如,通过无线电传输进行通信。信息论的基本直觉是,不太可能发生的事件比很可能发生的事件更有信息量。