3、概率与信息论基础:统计自然语言处理的数学基石

概率与信息论基础:统计自然语言处理的数学基石

1. 概率基础

1.1 概率空间

概率理论旨在预测事件发生的可能性。以抛三枚硬币为例,我们可以将其视为一个实验,该实验的所有可能基本结果构成样本空间。样本空间可分为离散和连续两种类型,在语言应用中,我们主要处理包含有限个基本结果的离散样本空间。

事件是样本空间的子集,例如抛三枚硬币中,第一枚为正面,第二、三枚为反面是一个基本结果,而出现一个正面和两个反面则是一个事件。样本空间代表必然事件,空集代表不可能事件。概率函数将概率质量 1 分配到整个样本空间,满足可数可加性等公理。

一个完善的概率空间由样本空间、事件的 σ - 域和概率函数组成。在统计自然语言处理应用中,我们需要为模型正确定义这样的概率空间。

1.2 条件概率与独立性

条件概率用于在已知部分信息的情况下更新事件的概率。事件在考虑额外信息之前的概率称为先验概率,使用额外信息后的新概率称为后验概率。

条件概率的计算公式为:$P(A|B)=\frac{P(A\cap B)}{P(B)}$($P(B)>0$),并且有乘法规则$P(A\cap B)=P(B)P(A|B)=P(A)P(B|A)$。

多个事件的条件概率可通过链式规则计算:$P(A_1\cap\cdots\cap A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1\cap A_2)\cdots P(A_n|\cap_{j=1}^{n - 1}A_j)$。

两个事件$A$和$B$相互独立的条件是$P(A\cap B)=P(A)P(B)$,否则它们相互依赖。此外,还有条件独立的概念,即给

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值