概率与信息论基础:统计自然语言处理的数学基石
1. 概率基础
1.1 概率空间
概率理论旨在预测事件发生的可能性。以抛三枚硬币为例,我们可以将其视为一个实验,该实验的所有可能基本结果构成样本空间。样本空间可分为离散和连续两种类型,在语言应用中,我们主要处理包含有限个基本结果的离散样本空间。
事件是样本空间的子集,例如抛三枚硬币中,第一枚为正面,第二、三枚为反面是一个基本结果,而出现一个正面和两个反面则是一个事件。样本空间代表必然事件,空集代表不可能事件。概率函数将概率质量 1 分配到整个样本空间,满足可数可加性等公理。
一个完善的概率空间由样本空间、事件的 σ - 域和概率函数组成。在统计自然语言处理应用中,我们需要为模型正确定义这样的概率空间。
1.2 条件概率与独立性
条件概率用于在已知部分信息的情况下更新事件的概率。事件在考虑额外信息之前的概率称为先验概率,使用额外信息后的新概率称为后验概率。
条件概率的计算公式为:$P(A|B)=\frac{P(A\cap B)}{P(B)}$($P(B)>0$),并且有乘法规则$P(A\cap B)=P(B)P(A|B)=P(A)P(B|A)$。
多个事件的条件概率可通过链式规则计算:$P(A_1\cap\cdots\cap A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1\cap A_2)\cdots P(A_n|\cap_{j=1}^{n - 1}A_j)$。
两个事件$A$和$B$相互独立的条件是$P(A\cap B)=P(A)P(B)$,否则它们相互依赖。此外,还有条件独立的概念,即给
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



