概率分布、期望导数与机器学习基础
1. 概率分布
1.1 离散概率分布
1.1.1 参数
我们用参数来表示概率分布。对于大小为 $n$ 的离散分布,我们需要 $n - 1$ 个参数,即 ${p_{x=1}, \cdots, p_{x=n - 1}}$,其中 $p_{x=1} = p(x = 1)$。最后一个类别的概率由概率总和为 1 的约束条件得出,即 $p_{x=n} = 1 - \sum_{i = 1}^{n - 1} p_{x = i}$。
例如,一个离散变量 $X$ 可以取三个值($X = {1, 2, 3}$),其相关的概率分布 $p(X = x)$ 为:
| $X$ | $p(X = x)$ |
| — | — |
| 1 | 0.2 |
| 2 | 0.4 |
| 3 | 0.4 |
1.1.2 离散随机变量的表示
要认识到我们总是将离散变量表示为概率向量。上述变量 $X$ 实际上并不取值为 $X = {1, 2, 3}$,因为 1、2 和 3 是任意类别(第二类并不是第一类的两倍)。我们也可以写成 $X = {a, b, c}$。应始终将离散变量的可能值视为单独的条目。因此,我们应该将离散变量的值表示为概率向量。在数据中,当我们观察到真实情况时,这就变成了独热编码,即将所有概率质量放在观察到的类别上。
例如,在上述例子中,假设我们对 $X$ 进行三次采样,分别观察到 1、2 和 3。我们实际上会将这些观察结果表示为:
| 观察类别 | 表示 |
| — | — |
| 1 | (1, 0, 0)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



