统计学之基础知识(一)

本文介绍了统计学的基础概念,包括平均数、方差、标准差等,详细解释了数据类型的分类,如定类、定序、定距和定比数据。同时,深入探讨了几种重要的概率分布,如几何分布、二项分布和泊松分布,以及大数定律和中心极限定理的区别。此外,还解析了正态分布的概率密度函数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考资料:可汗学院统计学、深入浅出统计学

统计学基础知识

1.平均数
平均值就是用数据之和除以数据的个数在这里插入图片描述
2.方差
偏差=数据的数值-平均值
方差=[(偏差的平方)的合计]/(数据数)
在这里插入图片描述
3.标准差
标准差=方差的均方根
均值体现了平均程度,标准差体现数值的变异程度。
在这里插入图片描述
补充:标准分
z分= X − μ θ \frac{X-\mu}{\theta} θXμ
在这里插入图片描述

数据类型有哪些?
在统计学中,统计数据主要可分为四种类型,分别是定类数据,定序数据,定距数据,定比变量。
1.定类数据(Nominal):名义级数据,数据的最低级,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。例如, ”性别“,”男“编码为1,”女“编码为2。
2.定序数据(Ordinal):数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。
3.定距数据(Interval):具有间距特征的变量,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。例如,温度。
4.定比变量(Ratio):数据的最高级,既有测量单位,也有绝对零点,例如职工人数,身高。

箱线图

在这里插入图片描述
如果箱线图是对称的,那么数据则有可能也是相当对称的。箱线图的弊端是忽略了数据出现的频率,只是单纯考虑数据的差距等。

几何分布、二项分布、泊松分布

几何分布

几何分布满足条件:
在这里插入图片描述
几何分布方差、均值计算公式:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二项分布

二项分布是指在只有两个结果的n次独立的伯努利试验中,所期望的结果出现次数的概率。在单次试验中,结果A出现的概率为p,结果B出现的概率为q,p+q=1。那么在n=10,即10次试验中,结果A出现0次、1次、……、10次的概率各是多少呢?这样的概率分布呈现出什么特征呢?这就是二项分布所研究的内容。
二项分布均值和方差计算公式:
在这里插入图片描述

泊松分布

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

大数定律

定义 1 若ξ1, ξ2, …, ξn, … 是随机变量序列,令
在这里插入图片描述
若存在常数序列 a1, a2, …, an, … 对任何的正数ε,恒有
在这里插入图片描述
则称序列 {ξn} 服从大数定律(或大数法则)
定义 2 对于独立随机变量序列ξ1, ξ2, …, ξn, … 假定 Eξn 和 Dξn 都存在,令
在这里插入图片描述

在这里插入图片描述
则称序列 {ξn} 服从中心极限定理(Central Limit Theorem)。

大数定理和中心极限定律的区别

  • 大数定律是说,n只要越来越大,把这n个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值 ε {\varepsilon} ε,但是样本均值的分布是怎样的我们不知道。
  • 中心极限定理是说,n只要越来越大,这n个数的样本均值会趋近于正态分布,并且这个正态分布以u为均值, Σ 2 n \frac{{\Sigma}^{2}}{n} nΣ2为方差。
  • 综上所述,这两个定律都是在说样本均值性质。随着n增大,大数定律说样本均值几乎必然等于均值。中心极限定律说,他越来越趋近于正态分布。并且这个正态分布的方差越来越小。直观上来讲,想到大数定律的时候,你脑海里浮现的应该是一个样本,而想到中心极限定理的时候脑海里应该浮现出很多个样本。

正态分布

正态分布的概率密度函数
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 \displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{{(x-\mu})^2}{2\sigma^2}} f(x)=2π σ1e2σ2(xμ)2
标准化后:
f ( x ) = 1 2 π e − x 2 2 \displaystyle f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} f(x)=2π 1e2x2
正态分布曲线:
在这里插入图片描述

参考博客

沈波 https://blog.youkuaiyun.com/shenbo2030/article/details/20040455
如何理解二项分布
大数定律和中心极限定律
统计之都

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值