统计学补习系列一之随机变量的数字特征

本文简述了统计学中随机变量的数字特征,包括度量集中趋势(均值、中位数、众数)、度量离散性(方差、标准差)以及度量相关性(协方差、相关系数)。详细介绍了如何根据变量类型选择合适的度量指标,以及度量离散性时的非主流指标如极差、极差率、变异系数和基尼系数。同时,阐述了协方差和相关系数在度量两个变量间相关性的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

       忙里偷闲,系统的回顾下统计学相关的知识,并将形成系列总结,第一次简单的总结下随机变量的数字特征。

随机变量的数字特征基本上分为三类:

1、度量变量分布的集中趋势:主要包括数学期望(均值),中位数,众数等。

2、度量变量分布的离散性:主要包括方差和标准差。

3、度量两个变量的相关性:主要包括协方差和相关系数。

       先说第一类,因为是回顾,所以具体的每个度量的定义不再叙述,有必要的时候再简单的说一下。第一类是度量变量分布的集中趋势,但是究竟什么时候用哪个指标衡量变量的集中趋势呢,一般来说,定类变量使用众数,所谓定类变量就是说该变量表示的是类别。定序变量一般使用中位数,定序变量是指序号。定距变量一般使用均值或者中位数。

      第二类是度量变量分布的离散性的数字特征,一般为:方差和标准差。方差被定义为随机变量对其均值的期望距离,通俗的说法就是距离的期望。方差较小说明变量的分布较为集中,反之则较为离散。接着就是标准差了,引出标准差是因为方差的量纲和变量不一样,刚好是变量量纲的平方,自然而然的就想到将方差开方,这就是标准差。同样是度量变量的离散程度的。

       这里要多句嘴的是,衡量变量的离散程度的指标还有一些非主流的,不常用到但很重要的几个指标:

       极差/全距:range=max(x)-min(x)

       极差率:I=max(x)/min(x)

       变异系数:CV=SD(x)/E(x)

       基尼系数:该算法较复杂,但是大家应该都很熟悉,这个其实和新闻上常说的衡量贫富差距的基尼指数是一个东东。

       泰尔系数:该系数的计算也较复杂,这里简单粘贴一些别处的:

        泰尔熵标准(Theil’s entropy measure)或者泰尔指数(Theil index) 作为衡量个人之间或者地区间收入差距(或者称不平等度)的指标,这一指数经常被使用。泰尔熵标准是由泰尔(Theil,1967)利用信息理论中的熵概念来计算收入不平等而得名。假设U是某一特定事件A将要发生的概率,P(A)=U。这个事件发生的信息量为E(U)肯定是U的减函数。用公式表达为:E(U)=log(1/u)。当有n个可能的事件1,2,…,n时,相应的概率假设分别为U1,U2,…,Un,Ui≥0,并且∑Ui=1。 熵或期望信息量可被看作每一件的信息量与其相应概率乘积的总和: E(U)= ∑Uih(Ui)= ∑Ui log(1/Ui) 显然,n种事件的概率Ui越趋近于(1/n),熵也就越大。在物理学中,熵是衡量无序的标准。如果Ui被解释为属于第i单位的收入份额,E(U)就是一种反映收入分配差距不平等的尺度。收入越平均,E(U)就越大。如果绝对平均,也就是当每个Ui都等于(1/n)时,E(U)就达到其最大值logn。泰尔将logn—E(U)定义为不平等指数——也就是泰尔熵标准: T=logn—E(U)= ∑ui*lognui 用泰尔熵指数来衡量不平等的一个最大优点是,它可以衡量组内差距和组间差距对总差距的贡献。泰尔熵标准只是普通熵标准(generalized entropy measures)的一种特殊情况。当普通熵标准的指数C=0时,测量结果即为泰尔熵指数。取C=0的优势在于分析组内、组间差距对总差距的解释力时更加清楚。 泰尔熵指数和基尼系数之间具有一定的互补性。基尼系数对中等收入水平的变化特别敏感。泰尔熵T指数对上层收入水平的变化很明显,而泰尔熵L和V指数对底层收入水平的变化敏感。

      第三类为度量两个变量相关性的指标,一般为协方差和相关系数。先说协方差,协方差定义两个变量的相关程度,其定义为:

Cov(X,Y)=E(X*Y)-E(X)*E(Y),协方差大于0表示两个变量正相关,等于0表示不相关,小于0则表示负相关。很容易可以发现,协方差表示的缺点,就是它的单位,发现协方差的值是与X,Y取值的单位有关的。使用起来很不方便,而且变量之间相关度没有办法进行比较,于是与单位无关的相关系数则应运而生,相关系数的定义为:ρ=Cov(X,Y)/(SD(X)*SD(Y))

最后说一下一个很古老的话题,相关与独立

相关是指两个随机变量之间的线性关联程度,独立是指两个变量之间的一般关联程度

若两个变量相互独立,其相关系数一定为0

若两个变量的相关系数为0,它们不一定独立

 

 

转载于:https://www.cnblogs.com/xuq22/archive/2011/08/22/3769414.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值