概率分布、协方差与相关性分析
1. 引言
在数据分析和统计学中,概率分布、协方差和相关性是非常重要的概念。概率分布描述了随机变量取值的概率情况,协方差和相关性则用于衡量两个变量之间的关系。下面我们将详细探讨这些概念。
2. 概率分布
概率分布在处理由数量组成的数据的常见统计问题中起着关键作用。这里我们主要介绍离散均匀分布、正态分布、学生 t 分布和二项分布。
2.1 离散均匀分布
离散均匀分布是指每个可能的结果都有相等的概率发生。例如,在欧洲轮盘赌中,37 个数字(0 到 36)每个出现的概率都是 1/37,约为 0.02702,这就是一个伯努利试验。无限次抽取的结果会形成均匀分布。另一个例子是掷骰子,每个数字出现的概率是 1/6,约为 0.16667。如果我们掷骰子无限次(或大量次数),结果的直方图会显示每个数字出现的次数大致相等。可以使用以下 R 代码进行验证:
rolls = sample(6, size = 1000000, replace = TRUE)
hist(rolls)
2.2 正态分布
并非所有属性都遵循离散均匀分布,实际上大多数都不遵循。以成年人的身高为例,像 140cm、180cm 或 200cm 这样身高的人并不多,有些身高比其他身高更常见。正态分布通常适用于这类属性,它承认属性的某些值比其他值更有可能出现,这些值接近算术平均值。一个值离均值越远,在正态分布下出现的可能性就越小。大约 68% 的观测值应该在均值减去一个标准差和均值加上一个标准差之间,95% 的观测值应该在均值
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



