概率统计、信息论与机器学习基础
1. 概率与统计基础
1.1 概率分布
概率分布是为概率空间中的事件分配可能性的一种方式。以一个六面骰子为例,每个面颜色不同,概率空间 $\Omega$ 为 ${红, 橙, 黄, 绿, 蓝, 紫}$。若骰子是公平的,每个颜色出现的概率为 $\frac{1}{6}$,概率分布可表示为 $\theta = {\frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}}$;若骰子不公平,可用不同的概率分布 $\theta’ = {\frac{1}{3}, \frac{1}{3}, \frac{1}{12}, \frac{1}{12}, \frac{1}{12}, \frac{1}{12}}$ 来建模。
在文本应用中,通常将样本空间 $\Omega$ 视为文本语料库的词汇表 $V$,例如 $V = {a, and, apple, \ldots, zap, zirconium, zoo}$,并用概率分布 $\theta$ 对文本数据建模。对于某个单词 $w$,可表示为 $p(w | \theta)$。
1.2 柯尔莫哥洛夫公理
有效的概率分布 $\theta$ 需满足以下三个公理:
1. 每个事件的概率介于 0 和 1 之间:$0 \leq p_{\theta}(\omega \in \Omega) \leq 1$。
2. 不在 $\Omega$ 中的事件概率为 0,$\Omega$ 中任意事件发生的概率为 1:$p_{\theta}(\omega’) = 0, \omega’ \notin \Om
超级会员免费看
订阅专栏 解锁全文
2288

被折叠的 条评论
为什么被折叠?



