降维技术:ICA与流形学习详解
1. 概率基础:边缘、联合与条件概率
在数据分析中,概率是理解数据分布和事件关系的基础。我们可以通过一个模拟100人自我报告疾病的示例来理解边缘概率、联合概率和条件概率。
1.1 边缘概率
边缘概率是指某个单一事件发生的概率。例如,随机选择一名特定年龄组的参与者的边缘概率可以表示为 $P(age_i) = \frac{r_i}{N}$,其中 $r_i$ 是该年龄组的行总和,$N$ 是所有参与者的总数。
| 概率类型 | 计算示例 |
|---|---|
| 选择20岁以下参与者的概率 | $P(< 20) = \frac{r_1}{N} = \frac{2 + 1 + 3 + 5 + 14}{100} = \frac{25}{100}$ |
| 选择患有心脏病的参与者的概率 | $P(H) = \frac{c_2}{N} = \frac{1 + 6 + 0 + 6 + 3}{100} = \frac{16}{100}$ |
1.2 联合概率
联合概率用于总结两个或多个事件同时发生的可能性。例如,选择一名60 - 80岁且患有精神疾病的个体的联合概率,需要取这两个选项交叉单元格的总和 $c_{ij}$,然后除以样本总数 $N$。
超级会员免费看
订阅专栏 解锁全文
2725

被折叠的 条评论
为什么被折叠?



