统计自然语言处理中的数学基础:概率与信息论入门
在统计自然语言处理(Statistical NLP)领域,概率和信息论是至关重要的基础。下面将深入介绍概率理论的基础知识和信息理论的核心概念。
1. 基础概率理论
1.1 概率空间
概率理论旨在预测事件发生的可能性。例如,抛掷三枚硬币,它们全部正面朝上的概率是多少?为了便于理解,我们先从硬币和骰子的例子入手,因为它们的行为相对简单直接。
概率理论中的实验(或试验)是进行观察的过程。抛掷三枚硬币就是一个实验,关键在于实验协议要明确界定。我们假设实验有一组基本结果(或样本点),构成样本空间Ω。样本空间可以是离散的(最多有可数无限个基本结果)或连续的(有不可数无限个基本结果,如测量人的身高)。在语言应用中,我们主要处理只包含有限个基本结果的离散样本空间。
事件A是Ω的子集。例如,在硬币实验中,第一枚硬币正面朝上,第二枚和第三枚反面朝上是一个基本结果,而出现一个正面和两个反面的任何结果则是一个事件。需要注意的是,Ω表示必然事件,即所有可能实验结果的空间,而∅表示不可能事件。实验结果必然是一个事件。
概率理论的基础依赖于事件集合F形成一个σ - 域,即一个在其元素的补集和可数并集下封闭且有最大元素Ω的集合。通过使事件集合(事件空间)成为样本空间的幂集(即样本空间的所有子集的集合,通常写作2Ω),可以轻松满足这些要求。
概率是介于0和1之间的数字,其中0表示不可能,1表示必然。概率函数(也称为概率分布)将概率质量1分布在整个样本空间Ω上。形式上,离散概率函数是任何函数P: F →[0, 1],满足以下条件:
- P(Ω) = 1
- 可数可加
超级会员免费看
订阅专栏 解锁全文
2185

被折叠的 条评论
为什么被折叠?



