第一章 随机事件及其概率
概率的公理化定义:
1)非负性公理
2)正则性公理
3)可加性公理
重复组合:从n个不同的元素中每次取出一个,放回后再取出下一个,如此连续取r次所得的组合称为重复组合,总数为C_{n+r-1}^{r}
可结合插板法考虑
概率的加法公式
多个事件的独立性不只是两两独立,eg:三个事件相互独立需要满足4个等式。
条件概率同样满足概率的公理化中的三个条件。
乘法公式
全概率公式(经由另一对全空间的分割,通过乘法公式/条件概率推算得出)
由全概率公式可知,抽签不分先后,机会是均等的。
敏感性问题的调查,可以设置两个问题,其中A为感兴趣的B为不感兴趣的。被调查者从一个罐子中随机抽取一只球,抽到白球则回答A,抽到红球则回答B。通过相关概率公式可以计算感兴趣的问题的概率性质。
贝叶斯公式,可由条件概率公式、乘法公式及全概率公式得出。
第二章 随机变量及其概率分布
分布函数F(x)=P(X<=x)的性质:
1)0<=F(x)<=1
2)在x趋于负无穷时为0
3)在x趋于正无穷时为1
4)F(x)是非降函数
5)右连续函数
泊松分布
是常用对的离散分布之一,eg: 在一定时间内, 电话总站接错电话的次数。其中使用的 λλ不同。泊松分布与计数过程相关联,在一定时间或一定区域或一特定单位内的前提下进行。
(泊松定理)
n大p小,且\lambda=np大小合适,二项分布中的概率有一个很好的近似公式,可用泊松分布中相应次数的概率近似二项分布中的概率。(就求极限即可)
人们把一次试验中出现概率很小(如小于0.05)成为稀有事件,此时可使用二项分布的泊松近似。
超几何分布
指数分布Exp(λ)Exp(λ)
p(x)=λe−λx,x≥0p(x)=λe−λx,x≥0
随机变量函数的分布。Y=g(X)Y=g(X)
则pY(y)=pX(h(y))|h′(y)|pY(y)=pX(h(y))|h′(y)|
其中x=h(y)x=h(y)为y=g(x)y=g(x)的反函数.
期望存在的条件是期望对应的积分绝对可积。
期望不一定存在如柯西分布p(x)=1π(x2+1),−∞<x<+∞p(x)=1π(x2+1),−∞<x<+∞的期望不存在。
正态分布N(μ,σ)N(μ,σ)
p(x)=12π√σe−(x−μ)22σ2,−∞<x<+∞p(x)=12πσe−(x−μ)22σ2,−∞<x<+∞,其中−∞<μ<+∞−∞<μ<+∞决定位置, σ>0σ>0决定散布大小。
(从正态分布可以导出一些有用的分布,如统计中常用的三大分布 χ2χ2,tt, )
0.95 (-1.96, 1.96)
0.99 (-2.58, 2.58)
0.99 (-3.29, 3.29)
伽马分布Ga(a,λ)Ga(a,λ)
p(x)=λaΓ(a)xa−1e−λx,x>0p(x)=λaΓ(a)xa−1e−λx,x>0
其中a>0a>0称为形状参数, λ>0λ>0称为尺度参数。
a<1,a=1,a>1a<1,a=1,a>1时密度函数各不相同,a>1a>1时密度函数具有单峰,另外1<a≤21<a≤2与a>2a>2时又有不同。
用于描述产品寿命
注: Γ(1)=1,Γ(n+1)=n!,Γ(12)=π−−√Γ(1)=1,Γ(n+1)=n!,Γ(12)=π
1)因此, a=1a=1的伽马分布Ga(1,λ)Ga(1,λ)是指数分布。可用来描述第一次冲击到来的时间,电话的通话是时间等。具有无记忆性。
2) a=λ=n2a=λ=n2, λ=12λ=12的伽马分布Ga(n2,12)Ga(n2,12)称为自由度为nn的分布
贝塔分布Be(a,b)Be(a,b)
p(x)=Γ(a+b)Γ(a)+Γ(b)xa−1(1−x)b−1,0≤x≤1p(x)=Γ(a+b)Γ(a)+Γ(b)xa−1(1−x)b−1,0≤x≤1,其中a>0,b>0a>0,b>0均为形状参数
β(a,b)=∫10xa−1(1−x)b−1dx,a>0,b>0β(a,b)=∫01xa−1(1−x)b−1dx,a>0,b>0
β(a,b)=Γ(a)+Γ(b)Γ(a+b)β(a,b)=Γ(a)+Γ(b)Γ(a+b)
a=1,b=1时a=1,b=1时Be(1,1)Be(1,1)即为U(0,1)U(0,1)
期望与方差
E(X)E(X)是分布位置的特征数。
X−E(X)X−E(X)偏差
E(X−E(X))2E(X−E(X))2表征随机变量取值的波动大小
Var(X)=E[X−E(X)]2=E(X2)−E(X)2Var(X)=E[X−E(X)]2=E(X2)−E(X)2
σ(X)=Var(X)−−−−−−√σ(X)=Var(X)
可利用求导、二项式公式、泰勒展开、分部积分
二项分布 B(n,p)B(n,p)
期望 npnp, 方差np(1−p)np(1−p)
泊松分布P(λ)P(λ)
期望 λλ, 方差 λλ
几何分布
期望p^{-1}
均与分布 U(a,b)U(a,b)
期望 a+b2a+b2, 方差(b−a)212(b−a)212
指数分布 Exp(λ)Exp(λ)
p(x)=λe−λx,x≥0p(x)=λe−λx,x≥0
期望1λ1λ, 方差1λ21λ2
正态分布N(μ,σ)N(μ,σ)
p(x)=12π√σe−(x−μ)22σ2,−∞<x<+∞p(x)=12πσe−(x−μ)22σ2,−∞<x<+∞,其中−∞<μ<+∞−∞<μ<+∞决定位置, σ>0σ>0决定散布大小。
(从正态分布可以导出一些有用的分布,如统计中常用的三大分布 χ2χ2,tt, )
期望μμ
方差σ2σ2
伽马分布Ga(a,λ)Ga(a,λ)
期望aλaλ, 方差aλ2aλ2
χ2χ2分布
期望nn, 方差
贝塔分布Be(a,b)Be(a,b)
期望aa+baa+b
切比雪夫不等式
P(|X−E(X)≥ϵ|≤Var(X)ϵ)P(|X−E(X)≥ϵ|≤Var(X)ϵ)
矩
变导系数Cv=Var(X)−−−−−−√EXCv=Var(X)EX
分位数F(xα)=∫xα−∞p(x)dx=P(X≤α)=αF(xα)=∫−∞xαp(x)dx=P(X≤α)=α,xαxα称为XX分布的分位数,或αα下侧分位数。
众数Mod(X)Mod(X), P(X=x)P(X=x)达到最大的xx
第三章 多维随机变量
二维正态分布
的边缘分布是一维正态分布N(μ1,σ21)N(μ1,σ12), N(μ2,σ22)N(μ2,σ22)
由此也可以看出二维联合分布可以唯一决定其每个分量的的边缘分布,但是反过来不成立。
泊松分布,二项分布、正态分布、伽马分布可加性:(独立)
X∼P(λ1),Y∼P(λ1)X∼P(λ1),Y∼P(λ1),XX与独立,则X+Y∼P(λ1+λ2)X+Y∼P(λ1+λ2)
X∼B(n,p),Y∼B(m,p)X∼B(n,p),Y∼B(m,p),XX与独立,则X+Y∼B(n+m,p)X+Y∼B(n+m,p)
X∼N(μ1,σ21),Y∼N(μ2,σ22)X∼N(μ1,σ12),Y∼N(μ2,σ22),XX与独立,则X+Y∼N(μ1+μ2,σ21+σ21)X+Y∼N(μ1+μ2,σ12+σ12)
X∼Γ(a1,λ),Y∼Γ(a2,λ)X∼Γ(a1,λ),Y∼Γ(a2,λ),XX与独立,则X+Y∼Γ(a1+a2,λ)X+Y∼Γ(a1+a2,λ)
E(X+Y)=E(X)+E(Y)E(X+Y)=E(X)+E(Y)
XX与独立,则E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)
XX与独立,则Var(X±Y)=Var(X)+Var(Y)Var(X±Y)=Var(X)+Var(Y)
协方差Cov(X,Y)=E[(X−E(X))(Y−E(Y))]=E(XY)−E(X)E(Y)Cov(X,Y)=E[(X−E(X))(Y−E(Y))]=E(XY)−E(X)E(Y)
XX与独立,则Cov(X,Y)=0Cov(X,Y)=0.
Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y)Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y)
(线性)相关系数Corr(X,Y)=Cov(X,Y)σXσYCorr(X,Y)=Cov(X,Y)σXσY
−1≤Corr(X,Y)≤1−1≤Corr(X,Y)≤1
独立则相关系数为0,反之不然。在二维正态分布场合例外。
条件期望E(E(X|Y))=E(X)E(E(X|Y))=E(X)
中心极限定理(n个相互独立、同分布的随机变量之和的分布近似于正态分布)
{Xn}{Xn}是独立同分布的随机变量序列,其中E(X1)=μ,Var(X1)=σ2E(X1)=μ,Var(X1)=σ2, 假如方差有限且不为零0,则前nn个随机变量之和的标准化变量的分布函数收敛于Φ(y)Φ(y), 即
limn→+∞P(Yn≤y)=Φ(y)limn→+∞P(Yn≤y)=Φ(y)
因此np≥5,n(1−p)≥5np≥5,n(1−p)≥5时可用正态分布近似二项分布。使用正态近似应修正区间为往左右放大dfrac12dfrac12
独立不同分布的随机变量之和也有类似的中心极限定理。
统计量及其分布
从这里开始,我们通过对随机现象的观测或试验来获取数据,通过对数据的分析与推断去寻求隐藏在数据中的统计规律性。
eg:通过样本去推断总体。由于在实际中常常只能得到有限的甚至少量的数据,这部分数据必然带有随机性,我们需要从中尽可能地排出随机性的干扰以做出合理的推断。
常用的抽取样本的方法是“简单随机抽样”,样本具有代表性(同分布),独立性。
经验分布函数,n增大经验分布函数也将在概率移一下越来越靠近总体分布函数。
X=(X1,X2,...,Xn)X=(X1,X2,...,Xn)是取自某总体的一个容量为nn的样本, 如果
不含任何未知参数,则称TT为统计量。统计量的分布称为抽样分布。
样本均值
样本方差S2n=1n∑i=1n(Xi−X¯)2Sn2=1n∑i=1n(Xi−X¯)2
nn不大时,常用
计算偏差平方和Q=∑i=1n(xi−x¯)2Q=∑i=1n(xi−x¯)2的常用公式:
Q=∑i=1n(xi−x¯)2=∑i=1nx2i−2∑i=1nxi⋅x¯+∑i=1nx¯2=∑i=1nx2i−nx¯2=∑i=1nx2i−1n(∑i=1nxi)2Q=∑i=1n(xi−x¯)2=∑i=1nxi2−2∑i=1nxi⋅x¯+∑i=1nx¯2=∑i=1nxi2−nx¯2=∑i=1nxi2−1n(∑i=1nxi)2
X1,X2,...,XnX1,X2,...,Xn是来自总体N(μ,σ2)N(μ,σ2)的一个样本,则
n−1σ2S2=nσ2S2n=1σ2∑i=1n(Xi−X¯)2∼χ2(n−1)n−1σ2S2=nσ2Sn2=1σ2∑i=1n(Xi−X¯)2∼χ2(n−1)且与X¯X¯独立
偏度反映了总体分布密度曲线的对称信息。是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。SK>0SK>0右偏,正偏,右长尾,也就是说均值右边的数据较多。
峰度(Kurtosis)与偏度类似,反映了总体分布密度曲线的在其峰值附近的陡峭程度的信息。是描述总体中所有取值分布形态陡缓程度的统计量。这个统计量需要与正态分布相比较,峰度为0表示该总体数据分布与正态分布的陡缓程度相同;峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;峰度小于0表示该总体数据分布与正态分布相比较为平坦,为平顶峰。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。
总体偏度SK=μ3σ3SK=μ3σ3即为标准化变量的三阶矩。
总体峰度μ4σ4−3μ4σ4−3
其中μ3,μ4μ3,μ4皆为中心距。
次序统计量的抽样分布
第kk个次序统计量的概率密度函数是:
pk(x)=n!(k−1)!(n−k)![F(x)]k−1[1−F(x)]n−kp(x)pk(x)=n!(k−1)!(n−k)![F(x)]k−1[1−F(x)]n−kp(x)
样本极差表示样本取值范围的大小也反映了总体取值的分散和集中程度。
R=X(n)−X(1)R=X(n)−X(1)
参数估计
形式有两种: 点估计和区间估计
点估计值能给人们一个明确的数量,未知参数是多少,但是却不能给出精度。
点估计的常用方法有矩法估计和极大似然估计。
矩法估计 用样本矩去估计总体矩
评价估计的好坏,无偏性(渐进五篇)、有效性(无偏时,方差最小)、均方误差准则(有偏时,均方误差最小)、相和性(p收敛,n越大θ^θ^应该越来越接近θθ)
辛钦大数定律独立同分布的随机变量,具有有限数学希望,则样本均值是数学期望的相和估计。
极大似然估计(MLE,总体分布类型已知时
)
在θθ的一切取值之中选出一个使样本观测值出现的概率为最大的θθ值(记为)作θ^θ^为θθ的估计,并称θ^θ^为θθ的极大似然估计.
L(θ)=∏i=1np(xi;θ)L(θ)=∏i=1np(xi;θ),
则L(θ^)=maxL(θ)L(θ^)=maxL(θ)
可通过求导获得极大似然估计的情况,直接求导(为求导方便,常对似然函数取对数)。不可时,通过定义出发直接求L(θ)L(θ)的极大值点。
极大似然估计的不变原则,θ^θ^为θθ的极大似然估计, g(θ)g(θ)是θθ的连续函数, 则
g(θ^)g(θ^)为g(θ)g(θ)的极大似然估计.
极大似然估计具有渐进正态性。
区间估计给出一个区间以及相应的精度。
P(θL≤θ≤θU)≥1−αP(θL≤θ≤θU)≥1−α, 则称随机区间[θL,θU][θL,θU]是θθ的置信水平为1−α1−α的置信区间
常用方法枢轴量法(点估计θ^θ^通过点估计去寻找)
从θθ的一个点估计θ^θ^出发,构造θ^θ^与θθ的一个函数G(θ^,θ)G(θ^,θ),是的GG的分布已知且与无关
eg:
正态分布N(μ,σ2)N(μ,σ2)
1)正态均值
方差σ2σ2已知,样本数nn已知, 将作为枢轴量给出均值μμ得到置信区间
2)正态均值
方差σ2σ2未知,样本数nn已知,
将(t(n−1))作为枢轴量给出均值t(n−1))作为枢轴量给出均值\mu$得到置信区间。
tt分布, Y∼χ2(n)Y∼χ2(n), 且XX与独立,则t=XY/n−−−−√t=XY/n的分布称为自由度为nn的分布
3)正态方差
均值μμ未知,样本数nn已知,
将(χ2(n−1)χ2(n−1))作为轴量给出方差σ2σ2得到置信区间。
4)两正态均值差
同正态均值的思路
5)两正态方差比
FF分布
X∼χ2(n)X∼χ2(n), Y∼χ2(m)Y∼χ2(m),且XX与独立,则F=X/nY/mF=X/nY/m的分布称为自由度是nn与的FF分布
假设检验
步骤
1)建立假设,原假设与备择假设
常把没有把握不能轻易肯定的命题作为备择假设,把没有充分理由不能轻易否定的命题作为原假设,只有理由充足时才会拒绝它,否则保留。
2)寻找检验统计量(由于要确认原假设是否为真,那么我们先假定原假设成立,然后用样本去判断真伪,而样本信息较为分散,所以要构造一个统计量帮助判断)
3)显著水平与临界值
显著水平即为原假设为真但被拒绝的概率
两类错误:
第一类错误,原假设为真而被拒绝,拒真概率记为
第二类错误,原假设为假但保留,取伪概率记为ββ
单双边看备择假设
样本容量固定时,两者一般一个大一个小,不能同时减小,所以抽取样本时,尽量使样本容量大一点,可减小两类错误。
4)作判断,拒绝或保留原假设
关于均值的检验
1)方差已知
X¯X¯作为检验统计量
2)方差未知
X¯−μ0S/n−−√X¯−μ0S/n作为检验统计量
关于方差的检验
(n−1)S2σ20(n−1)S2σ02作为检验统计量
两正态总体方差
S2XS2YSX2SY2作为检验统计量
两正态总体均值差
同正态均值的思路
p值
前面所讨论的检验问题是在分布形式已知的前提下对分布的参数进行的,他们都属于参数假设检验问题,当我们对总体分布知之甚少时,就要采用非参数检验。
χ2χ2拟合优度检验
用来检验一批分类数据所来自的总体的分布是否与某种理论分布相一致。
1)总体可分为有限类,但总体分布不含未知参数。(此时pipi已知)
总体XX可分为类,记为A1,...ArA1,...Ar。
H0:p(Ai)=pi,i=1,...rH0:p(Ai)=pi,i=1,...r
nn充分大且为真时,χ2=∑i=1r(ni−npi)2npiχ2=∑i=1r(ni−npi)2npi近似服从自由度为r−1r−1的χ2χ2分布
2)总体可分为有限类,但总体分布含kk个未知参数。(此时未知,可用极大似然估计去代替,相应的自由度减kk)
3)总体为连续分布的情况
服从分布F(x)F(x)
把检验问题转化为分类数据的检验问题
列联表的独立性检验
H0:pi,j=pi,.p.,j∀i,jH0:pi,j=pi,.p.,j∀i,j
χ2=∑ri=1∑cj=1(nij−npi,j)2npi,j=∑ri=1∑cj=1(nij−npi,.p.,j)2npi,.p.,jχ2=∑i=1r∑j=1c(nij−npi,j)2npi,j=∑i=1r∑j=1c(nij−npi,.p.,j)2npi,.p.,j
pi,.p.,jpi,.p.,j使用极大似然估计去替换
p^i,.=ni,.np^i,.=ni,.n
p^.j=n.,jnp^.j=n.,jn
即采用检验统计量
χ2=∑ri=1∑cj=1(nij−np^i,.p^.j)2np^i,.p^.jχ2=∑i=1r∑j=1c(nij−np^i,.p^.j)2np^i,.p^.j自由度为n−(r+c−2)=(r−1)(c−1)n−(r+c−2)=(r−1)(c−1)
方差分析
单因子方差分析
因子–变量,水平–变量的不同过取值
设因子AA有个水平A1,..,ArA1,..,Ar,每一水平下都可以看成一个总体,现有rr个水平,故有个总体,假定
1)每一总体服从正态分布
2)每一总体方差相同
3)从每一总体中抽出的样本独立
比较哥哥总体的均值是否一致
H0:μ1=...=μrH0:μ1=...=μr
H0H0为真时,称该因子的各水平间无显著差异,简称该因子不显著。
方差分析检验具有相同方差的正态总体均值是否相等
aiai称为因子AA的第水平的主效应,原假设可改写为
H0:a1=...=ar=0H0:a1=...=ar=0
总偏差平方和
ST=∑i=1r∑j=1mi(yi,j−y¯)2ST=∑i=1r∑j=1mi(yi,j−y¯)2
由于假设原假设为真,所以除去一个常数项(方差)后服从自由度为n−1n−1的χ2χ2分布
组内偏差平方和(误差偏差平方和)
Sϵ=∑i=1r∑j=1mi(yi,j−yi,.¯)2Sϵ=∑i=1r∑j=1mi(yi,j−yi,.¯)2
除去一个常数项(方差)后服从自由度为n−rn−r的χ2χ2分布
因子AA 的偏差平方和
ST=Sϵ+SAST=Sϵ+SA
由于假设原假设为真,所以SASA除去一个常数项(方差)后服从自由度为r−1r−1的χ2χ2分布
采用检验统计量F=SA/(r−1)Sϵ/(n−r)F=SA/(r−1)Sϵ/(n−r)
多重比较
当因子显著时,如何进一步去确认哪些水平减的确有差异,哪些水平间无显著差异。同时比较任意两个水平间有无显著差异的问题叫做多重比较。
一元线性回归
回归分析是研究变量间相关关系的一种统计方法
yi=β0+β1xi+ϵi,i=1,2,...,nyi=β0+β1xi+ϵi,i=1,2,...,n其中ϵiϵi相互独立且服从均值为零的正态分布N(0,σ2)N(0,σ2)
回归系数如何估计?
一个直观的想法是观测值与估计值的偏差越小越好,转化为求偏差平方和达到最小,即最小二成估计
回归方程是否有意义?
H0:β1=0H0:β1=0
F检验,类似于方差分析,从偏差平方和分解入手。
F=SR/1SE/(n−2)F=SR/1SE/(n−2)
t检验(β1^β1^服从正态分布)t=β1^σ^/lxx−−−√t=β1^σ^/lxx
相关系数检验r2=l2xylxxlyy=11+n−2Fr2=lxy2lxxlyy=11+n−2F
可化为一元线性回归的曲线回归
相关指数(类似于一元线性回归方程中的相关系数)
R2=1−∑i(yi−yi^)2∑i(yi−y¯)2R2=1−∑i(yi−yi^)2∑i(yi−y¯)2越大越好。
剩余标准差
s=∑i(yi−yi^)2n−2−−−−−−−−−−⎷s=∑i(yi−yi^)2n−2越小越好