概率论与信息论
1.概率论
概率论用于表示不确定性声明的数学框架,不仅提供量化不确定的方法,提供用于导出新的不确定声明的公理。
作用:①设计算法计算或估算由概率论导出的表达式;②用概率与统计从理论上分析AI系统的行为。
不确定性的三种可能来源:
①、被建模系统内在的随机性。
②、不完全观测;不能观测到所有驱动系统行为的变量时,该系统会变得随机。
③、不完全建模。使用必须舍弃某些观测信息的模型时,舍弃的信息会导致预测出现不确定性。
1.1随机变量
随机变量只是对可能状态该的描述;必须伴随一个概率分布来指定某个状态的可能性。
1.2 概率分布
概率分布:用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性的大小。
1.2.1 概率质量函数
概率质量函数将随机变量能取得的每个状态映射到随机变量取得该状态的概率。PMF可同时作用于多个随机变量,称为联合概率分布。
函数p是随机变量x的概率质量函数满足以下条件:
①、P的定义域是随机变量x所有可能状态的集合;
②、∀x∈x,0≤P(x)≤1\forall x \in {\bf x}, 0 \leq P(x)\leq 1∀x∈x,0≤P(x)≤1
③、∑x∈xP(x)=1\sum_{x \in {\bf x}} P(x)=1∑x∈xP(x)=1归一化性质。
1.2.2 概率密度函数
概率密度函数满足以下条件:
①、p的定义域必须是x{\bf x}x所有可能状态的集合;
②、∀x∈x,p(x)≥0\forall x \in {\bf x}, p(x) \geq 0∀x∈x,p(x)≥0,并不要求p(x)≤1p(x) \leq 1p(x)≤1;
③、∫p(x)dx=1\int p(x) dx=1∫p(x)dx=1;
概率密度函数并未直接给出特定状态的的概率,而是落在面积为δx\delta xδx的无限小区域内的概率为p(x)δxp(x)\delta xp(x)δx。
1.3 边缘概率
已知联合概率,对其中某一随机变量的所有状态求和,即可得到该分布的边缘概率分布。
∀x∈x,P(x=x)=∑yP(x=x,y=y)p(x)=∫p(x,y)dy \forall x \in {\bf x}, P(x={\bf x})=\sum_yP(x={\bf x},y={\bf y}) \\ p(x)=\int p(x,y) dy ∀x∈x,P(x=x)=y∑P(x=x,y=y)p(x)=∫p(x,y)dy
1.4 条件概率
某个事件给定的情况下,其他事件发生的概率。
P(y=y∣x=x)=P(x=x,y=y)P(x=x) P(y={\bf y} |x={\bf x})=\dfrac{P(x={\bf x},y={\bf y})}{P(x={\bf x})} P(y=y∣x=x)=P(x=x)P(x=x,y=y)
注意:避免混淆条件概率和干预查询。干预查询是指计算一个行动的后果,属于因果模型的范畴。
1.4.1 条件概率的链式法则
P(x(1),⋯ ,x(n))=P(x(1))∏i=2nP(x(i)∣x(1),⋯ ,x(i−1)) P({\bf x}^{(1)},\cdots ,{\bf x}^{(n)})=P({\bf x}^{(1)})\prod_{i=2}^nP({\bf x}^{(i)}|{\bf x}^{(1)},\cdots ,{\bf x}^{(i-1)}) P(x(1),⋯,x(n))=P(