我的数据挖掘之旅-统计学基础(最终版2.0)

本文探讨统计学在数据分析中的基石作用,介绍数据集中趋势、离散程度、分布形状的测量方法,包括众数、中位数、平均数、方差、标准差等,并分析正态分布、抽样分布及假设检验在数据科学中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

序言:
很早就开始关注居士老师的公众号了,但是自己也懒,很多文章都没有看完,最近居士老师组织人一起系统学习数据挖掘,希望这次可以和大家共同进步。

甜点:
统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。所以我们这周的计划就是统计学相关知识。
在这里插入图片描述
大部分的数据分析,都会用到统计方面的以下知识,可以重点学习。
通过基本的统计量,就可以更多元化实现可视化,进而实现更加精细化的数据分析。这个时候也需要你去了解更多的Excel函数来实现基本的计算,或者python、R里面一些对应的可视化方法。有了总体和样本的概念,你就知道在面对大规模数据的时候,怎样去进行抽样分析。你也可以应用假设检验的方法,对一些感性的假设做出更加精确地检验。利用回归分析的方法,你可以对未来的一些数据、缺失的数据做基本的预测。

正菜:
本文算是一个知识点汇总,不做细致展开,让大家了解统计学有哪几大块,每一类分别用于什么样的分析场景。

一、数据的集中趋势
1.分类数据:
众数
①出现频率最高的数;
②众数可能有一个,也可能有多个。如果所有数据出现的次数都一样,那么这组数据没有众数。
③优点:不易受极端值的影响
④缺点:当数据呈多峰分布时,没有代表性
案例:服装生产企业只能参考服装和鞋帽尺寸的众数进行生产才有意义,使用平均数意义不大。此外,房地产行业关心哪种“格局”的房屋销售最好;饮料企业关心哪种“口味”的饮料销量最高;超市老板关心哪种“商品”销售最多等。
2.顺序数据:

中位数
将一组数据按大小顺序排列后,处于中间位置上的变量值就是中位数。
优点:不易受极端值的影响
缺点:当数据比较离散时,则中位数意义不大;当数据分布偏态时,中位数代表性会受影响。
把样本值排序,分布在最中间的值;
样本总数为奇数时,中位数为第(n+1)/2个值;
样本总数为偶数时,中位数是第n/2个,第(n/2)+1个值的平均数;

分位数
在这里插入图片描述
在这里插入图片描述
定义:把数据集排序后分成四等分,位于分位线上的数
优点:可以识别出数据大致分布情况(箱线图)
缺点:无法了解到比25%更小的颗粒度数据分布情况
应用场景: 箱线图(五数概括法)
矩形的上边线代表第一四分位数所在的位置,下边线代表第三四分位数所在位置,整个矩形部分代表四分位极差。
在这里插入图片描述
四分差通常是用来构建箱线图 ,以及对概率分布的简要图表概述。 对一个对称性分布数据(其中位数必然等于第三四分位数与第一四分位数的算术平均数)。在箱线图中,箱子的中间有一条线,代表了数据的中位数。因为箱体包含了50%的数据。因此,箱子的高度在一定程度上反映了数据的波动程度。上下边缘则代表了该组数据的最大值和最小值。有时候箱子外部会有一些点,可以理解为数据中的“异常值”。所以箱线图经常应用在识别检测异常值方面。
此外箱子的宽度在一定程度上反映了数据的波动程度。箱体越扁说明数据越集中,端线(也就是“须”)越短也说明数据集中。

案例:假设某个学生某门课程中的分数为54分,无法知道他相对于其他学生的好坏;如果54分恰好对应第70百分位数,我们就能知道大约70%的学生的成绩比他差,而约30%的学生比他高。
3.数值型数据
平均数
主要概念为:简单算术平均数、加权平均数、几何平均数。
①简单平均数
所有数的总和除以样本数量;
现在大家接触最多的概念应该是平均数,但有时候,平均数会因为某些极值的出现收到很大影响。举个小例子,你们班有20人,大家收入差不多,19人都是5000左右,但是有1个同学创业成功了,年入1个亿,这时候统计你们班同学收入的“平均数”就是500万了,这也很好的解释了,每年各地的平均收入数据出炉,小伙伴们直呼给祖国拖后腿了,那是因为大家收入被平均了,此时,“中位数”更能合理的反映真实的情况;
适用:主要用于未分组的原始数据。设一组数据为X1,X2,…,Xn,简单的算术平均数的计算公式为:
在这里插入图片描述
优点:考虑了每一个数据的作用
缺点:数据量小时,容易受极端值影响
应用场景: 所有权重相等的,汇总结果为加和形式的,求平均水平的场景
②加权平均数
定义:给每个数据项特定的权重,再求均值
因为不同的指标对整体评价的贡献不同,权重正是为了度量这种“贡献”而存在的。
主要用于处理经分组整理的数据。设原始数据为被分成K组,各组的组中的值为X1,X2,…,Xk,各组的[频数]分别为f1,f2,…,fk,加权算术平均数的计算公式为:
在这里插入图片描述
其中,算术平均数是加权平均数的一种特殊形式(它特殊在各项的权相等),当实际问题中,当各项权不相等时,计算平均数时就要采用加权平均数,当各项权相等时,计算平均数就要采用算数平均数。两者不可混淆。公式:
加权平均数 x拔=(x1f1 + x2f2+ … xkfk)/n,其中f1 + f2 + … + fk=n,f1,f2,…,fk叫做权
优点:可以结合先验的经验/相对的比重,人工设定数据项的影响力
缺点:先验经验可能不准确
应用场景: 各种指数的计算(价格指数、上证指数等)
③几何平均数
定义:所有数据相乘之后再开方,是n个变量值连乘积的n次方根。
优点:相比算数平均,受极端值影响较小
缺点:若变量有负值,则几何平均就会成为复数或者虚数;若数值中有0,则算数平均为0
应用场景: 当汇总结果为乘积的形式时
EXCEl语法:插入函数—统计—GEOMEAN函数
④算术平均数与几何平均数的区别
关于算术平均数和几何平均数的概念,我们先看以下这个例子:
如果你是一个基金经理,管理着一支基金,规模是100万元,今年行情好,到年底的时候涨到了200万元;然而第二年行情很差,又跌回了100万元,请问这支基金在这两年内的平均收益率是多少?
收益率的计算公式:收益率=(期末价格-期初价格)/期初价格
我们分开计算:
第一年的收益率=(200-100)/100=100%;第一年的收益率是100%,盈利;
第二年的收益率=(100-200)/200=-50%;第二年的收益率是-50%,亏损;
那么平均收益率该怎么算呢,一般人可能会把这两个收益率加起来除以二:[100%+(-50%)]/2=25%;
也就是说平均收益率有25%,基友一看,那好,你基金经理把25%的收益率给我,我投了100万,你把25万给我。你一看,期初管理了100万的基金规模,两年后还是100万的基金规模,并没有多出的25万给基友啊,那这平均收益率难道错了吗?
其实不是平均收益率错了,而是你选用计算平均收益率的方式错了。
计算平均数,有两种方式,一种是算术平均数,还有一种是几何平均数。

算术平均数就是我们上面求均值的方式,也是统计学中最基本、最常用的一种平均指标,是加权计算的,每个数据之间不具有相互影响关系,是独立存在的。

比如你是手机店的销售员,星期一你卖了10部手机,星期二你卖了8部手机,星期三你卖了9部手机,星期四你买了11部手机,星期五你卖了12部手机,那么这一周你平均每天卖的手机数是:(10+8+9+11+12)/5=10;你平均每天卖10部手机。
那么,什么是几何平均数呢?

几何平均数是指n个观察值连续乘积的n次方根,

这么说好像不太好理解,我们接着举卖手机的例子:比如你是手机店的销售员,上个星期平均每天卖了10部手机,这个星期你的经理给你布置了新的任务指标:
星期一在上个星期的基础上要增加10%的量,
星期二在星期一的基础上再增加12%的量,
星期三在星期二的基础上再增加8%的量,
星期四在星期三的基础上再增加11%的量,
星期五在星期四的基础上再增加9%的量。
那么,我们分开来计算每天要卖几台手机:
星期一:=10X(1+10%)=11;
星期二:=11X(1+12%)=12.32;
星期三:=12.32X(1+8%)=13.31;
星期四:=13.31X(1+11%)=14.77;
星期五:=14.77X(1+9%)=16.1;
或者我们可以一步计算:星期五:=10X1.1X1.12X1.08X1.11X1.09=16.1;
星期一到星期五的增长率就是:(16.1-10)/10=61%;
既然是求平均率,那么每个时间段的增长率都是相等的,
即:(1+r)(1+r)(1+r)(1+r)(1+r)=(1+61%);
r=10%;手机销售的日平均增长率是10%;
介绍完了算术平均数和几何平均数的概念,我们再来看这篇答案开篇的那个例子:如果你是一个基金经理,管理着一支基金,规模是100万元,今年行情好,到年底的时候涨到了200万元;然而第二年行情很差,又跌回了100万元,请问这支基金在这两年内的平均收益率是多少?
我们还是分别算出第一年和第二年的期间收益率:
第一年的收益率=(200-100)/100=100%;第一年的收益率是100%,盈利;
第二年的收益率=(100-200)/200=-50%;第二年的收益率是-50%,亏损;
这里我们不能用算术平均数的方法计算,而应该用几何平均数的方法计算:
(1+r)(1+r)=(1+100%)(1-50%);
r=0;几何平均数算出来的平均收益率是0%。
也就是这两年没涨没跌,符合实际情况,100万元的基金规模在两年后还是100万元。
有些基金公司对外宣称的平均收益率,都是算术平均收益率,这是不符合行业规范的,因为在算术平均收益率的计算下,如果第一年行情火爆,基金收益翻了好几倍,即使后面几年连续亏损,计算出来的也依然是正的收益率,按照规定,应该算几何平均收益率。
总结一下:
在这里插入图片描述
二、离散程度
1、分类数据
异众比率:
异众比率指非众数组的频数占总频数的比例。主要用于衡量众数对一组数据的代表程度。异众比率越大说明众数的代表性越差,越小说明众数的代表性越好。
优点:可算分类数据
缺点:离散程度不可知
2、顺序数据
四分位差:
定义:四分位距,也叫内距,IRQ = Q3-Q1(Inter-quartile range)

四分位差(quartile deviation),它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。
计算公式为:Q = Q3-Q1四分位差反映了中间50%数据的离散程度,
其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。
四分位差不受极值的影响。
此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。
四分位差主要用于测度顺序数据的离散程度。
对于数值型数据也可以计算四分位差,但不适合分类数据。
四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2。

优点:不受两端各25%数值的影响;可衡量中间50%数值的差异程度;聚焦的是中位数代表性
缺点:不能反映所有数值的离散程度
应用场景: 异常值检测[Q1-1.5* IQR,Q3+1.5* IQR]
案例:职员薪酬分布

3、数值型数据
①平均差
平均差也称平均绝对离差、平均偏差,它是各变量值与其平均数离差绝对值的平均数。平均差以平均数为中心,反映了每个数据与平均数的平均差异程度。为了避免离差之和等于零而无法计算平均差这个问题,因此采取了绝对值,以离差的绝对值来表示总离差。
平均差是用在看总体水平的
案例:使用平均偏差评价生产线的稳定性。
②方差
方差是用来看数据是否参差不齐
在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:
在这里插入图片描述
案例:如某种农作物的收获量受作物品种、肥料种类以及数量等的影响;选择不同的品种、肥料种类及数量进行试验,看哪一个影响大?并需要知道起显著作用的因素在什么时候起最好的作用。
③标准差
标准差是方差的平方根。
案例:标准差可以用来判断基金属性。据统计,今年以来股票基金的平均标准差为5.14,积极型基金的平均标准差为5.04;保守配置型基金的平均标准差为4.86;普通债券基金平均标准差为2.91;货币基金平均标准差则为0.19;由此可见,越是积极型的基金,标准差越大;而如果投资人持有的基金标准差高于平均值,则表示风险较高。

④极差
极差:一组数据的最大值和最小值之差,也称全距,用R表示。
极差容易受极端值的影响,不能反映出中间数据的分散情况。
案例:极差可以用来表示股票大盘的每日波动情况、描述气温的变化幅度等。

4、相对离散程度
离散系数:
离散系数又称变异系数, 它是一组数据的标准差与其相应的平均数之比。
离散系数主要用于比较不同样本数据的离散程度。
离散系数大,说明数据的离散程度越大,离散系数小,说明数据的离散程度也小。

应用场景:离散系数是衡量资料中各观测值离散程度的一个统计量。当进行两个或多个资料离散程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。

案例:离散系数在概率论的许多分支中都有应用,比如说在更新理论、排队理论和可靠性理论中。在这些理论中,指数分布通常比正态分布更为常见。

三、分布的形状
1、偏态系数
偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,
用SK表示偏斜系数:
偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。
偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
在这里插入图片描述
偏态系数的三种情况:
在这里插入图片描述
1.零值
偏态系数的取值为0时,表示数据为完全的对称分布。
2.正值
偏态系数的取值为正数时,表示数据为正偏态或右偏态。
3.负值
偏态系数的取值为负数时,表示数据为负偏态,或左偏态。
注意事项:偏态系数的绝对数值越小,表示数据偏倚的程度越小;偏态系数的绝对数值越大,表示数据偏倚的程度越大。

应用场景:偏态系数是根据众数、中位数与均值各自的性质,通过比较众数或中位数与均值来衡量偏斜度的,即偏态系数是对分布偏斜方向和程度的刻画 。一般认为,没有百年以上的资料,偏态系数的计算结果很难得到一个合理的数值。

案例:如某企业员工年收入数据分布。

2、峰态系数
峰态是对数据分布平峰或尖峰程度的测度。
测度峰态的统计量是峰态系数,用K表示。
峰态通常是相对于标准正态分布而言的:
如果一组数据服从标准正态分布,则峰态系数的值为0;
如果峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖,称为平峰分布或尖峰分布。
K大于0时为尖峰分布,数据分布更集中;小于0时为扁平分布,数据的分布越分散。

单峰分布可以分为尖峰态、常峰态和低峰态等类型,尖峰态曲线的单峰尖而陡峭,低峰态曲线的单峰则低矮平缓。描述单峰分布曲线的峰度高低和陡峭程度的指标是峰度系数,峰度系数和单峰分布形态之间的关系为:当峰度系数等于 3 时,代表分布曲线是扁平程度适中的常峰态;当峰度系数小于3时,代表分布曲线是低峰态;当峰度系数大于3时,代表分布曲线是尖峰态。正态分布的峰形是模板峰形,也就是常峰态,它的峰度系数等于3,其他分布都是与正态分布进行比较的。下图是三种峰度的分布曲线:
在这里插入图片描述
在这里插入图片描述
应用场景:峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏态系数都相同,但他们分布曲线顶端的高耸程度却不同。

案例:使用峰度与偏度检验政府精准扶贫效果。

相关的数学公式如下:
在这里插入图片描述
在这里插入图片描述
三、拓展
1、正态分布
1.定义:随机变量X服从一个数学期望为μ,方差为σ⊃2;的正态分布,记为N(μ,σ⊃2;)
随机取一个样本,有68.3%的概率位于距离均值μ有1个标准差σ内;
有95.4%的概率位于距离均值μ有2个标准差σ内;
有99.7%的概率位于距离均值μ有3个标准差σ内;
在这里插入图片描述
2、抽样分布
1.中心极限定理
设从均值为μ,方差为σ⊃2;的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ⊃2;/n的正态分布
2.抽样分布
设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有N·n种抽法,即可以组成N·n不同的样本,在不重复抽样时,共有N·n个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:在重置抽样时,样本均值的方差为总体方差的1/n。
举个例子:
48盆MM豆,计算出每盆有几个蓝色的MM豆,48个数据构成了总体样本。然后随机选择五盆,计算五盆中含有蓝色MM豆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。
在这里插入图片描述
3、假设检验
在这里插入图片描述
1.问题:什么是显著性水平?
显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,也就是Type I Error
A Type II Error is when you fail to reject the null when it is actually false.
在这里插入图片描述
在这里插入图片描述
2. 如何选择备选检验和零假设?
一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致;
同时将研究者想收集证据证明其不正确的假设作为原假设H0

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值