工程师统计学习入门
1. 统计学习基础概念
统计学习旨在从数据中估计未知函数,回归、分类和预测这三个基本问题都可归结为这一通用任务,因此它们所使用的基本学习方法颇为相似。
1.1 样本统计量
对于随机变量 (U) 和 (V),样本协方差 (\hat{c} {UV}) 和样本相关系数 (\hat{r} {UV}) 定义如下:
- 样本协方差:(\hat{c} {UV} = \frac{1}{N} \sum {j=1}^{N} (U_j - \hat{\mu} U)(V_j - \hat{\mu}_V) \to cov (U, V))
- 样本相关系数:(\hat{r} {UV} = \frac{\hat{c}_{UV}}{\sqrt{\hat{\sigma}_U^2 \hat{\sigma}_V^2}} \to corr (U, V))
其中,(\hat{\mu}_U)、(\hat{\mu}_V) 分别是 (U) 和 (V) 的样本均值,(\hat{\sigma}_U^2)、(\hat{\sigma}_V^2) 分别是 (U) 和 (V) 的样本方差,当 (N \to \infty) 时,上述估计收敛到真实的协方差和相关系数。
此外,还有一些方法可用于量化随机变量间的一般(非线性)依赖关系,如互信息,但这些方法需要知道随机变量 (U) 和 (V) 的联合分布信息。
1.2 多元正态分布
对于 (d) 维随机向量,多元正态分布起着类似于实值随机变量中正态分布的作用。其概率密度函数为:
[p(x) = \
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



