11、概率分布、协方差与相关性分析

概率分布、协方差与相关性分析

1. 引言

在数据分析和统计学中,概率分布、协方差和相关性是非常重要的概念。概率分布描述了随机变量取值的概率情况,协方差和相关性则用于衡量两个变量之间的关系。下面我们将详细探讨这些概念。

2. 概率分布

概率分布在处理由数量组成的数据的常见统计问题中起着关键作用。这里我们主要介绍离散均匀分布、正态分布、学生 t 分布和二项分布。

2.1 离散均匀分布

离散均匀分布是指每个可能的结果都有相等的概率发生。例如,在欧洲轮盘赌中,37 个数字(0 到 36)每个出现的概率都是 1/37,约为 0.02702,这就是一个伯努利试验。无限次抽取的结果会形成均匀分布。另一个例子是掷骰子,每个数字出现的概率是 1/6,约为 0.16667。如果我们掷骰子无限次(或大量次数),结果的直方图会显示每个数字出现的次数大致相等。可以使用以下 R 代码进行验证:

rolls = sample(6, size = 1000000, replace = TRUE)
hist(rolls)
2.2 正态分布

并非所有属性都遵循离散均匀分布,实际上大多数都不遵循。以成年人的身高为例,像 140cm、180cm 或 200cm 这样身高的人并不多,有些身高比其他身高更常见。正态分布通常适用于这类属性,它承认属性的某些值比其他值更有可能出现,这些值接近算术平均值。一个值离均值越远,在正态分布下出现的可能性就越小。大约 68% 的观测值应该在均值减去一个标准差和均值加上一个标准差之间,95% 的观测值应该在均值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值