自然语言处理中的统计方法基础
在自然语言处理(NLP)领域,数据驱动的方法已成为主流。这些方法成功应用于词性标注、句法分析、语义角色标注等众多任务。数学统计在其中发挥着重要作用,下面将深入探讨一些基于统计的方法。
1. 数学统计基础
1.1 概率测度
概率测度是将总概率 1 分配到样本空间的一种方式。样本空间是所有可能结果的集合。例如抛硬币,样本空间是{正面,反面},概率测度可将总概率 1 平均分配到这两个结果上,若硬币有偏差,可给一面分配概率 p,另一面分配 1 - p。
概率测度 P 是从样本空间 Ω 的子集到 [0, 1] 实数集的函数,具有以下性质:
1. ∀A ⊆ Ω,0 ≤ P(A) ≤ 1
2. P(Ω) = 1
3. 若 A ∩ B = ∅,则 P(A ∪ B) = P(A) + P(B)
1.2 随机变量与概率分布
随机变量是对观测方法的抽象,其取值和对应概率构成概率分布。例如抛硬币是伯努利分布,有两个可能结果,一个结果概率为 p,另一个为 1 - p。
为完全刻画随机变量 X,需指定其可能取值集合 ΩX 及每个取值的概率 p(x),且满足:
- p(x) ≥ 0
- ∑x∈ΩX p(x) = 1
对于离散取值集合,随机变量 X 取值在集合 C ⊆ ΩX 的概率为:
P(X ∈ C) = ∑x∈C p(x)
若取值集合不可数,需用概率密度函数 p(x),此时:
P(X ∈ C) = ∫C p(x)dx
还可计算随机变量的期望 E[X]、方差 σ²
统计方法在自然语言处理中的应用
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



