机器学习中的概统知识——3 随机变量的数字特征

本文深入探讨随机变量的数字特征,包括期望、条件期望、方差与协方差。期望是随机变量的均值,条件期望则是在已知某些信息时的期望值。方差衡量随机变量的集中程度,而协方差则反映了不同随机变量之间的关联。此外,还介绍了矩和矩母函数的概念及其在描述分布中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在上一节中,介绍了随机变量的分布函数以及概率密度函数,可以知道随机变量的统计规律性可以用其表示。但是在实际应用中,分布函数有时候是不容易求得的。此时便可根据随机变量的数字特征去概括一个分布。本章节就将围绕随机变量的数字特征进行介绍,包括常见的期望、方差/协方差,以及更加泛化的矩与矩母函数。

1 期望

1.1 期望

随机变量的期望值,本质上就是随机变量的均值,只不过此处的均值是概率加权的平局。就好比平均值被用来描述数据的中间值,随机变量的期望是该随机变量对应分布的中心。换句话说,期望是随机变量最具代表性的取值。

注意 期望与均值的辨析
上面类比均值对随机变量进行了介绍,但是两者是不同的概念。均值通常是指数据的均值,而期望特指随机变量的期望。此处需回顾随机变量的定义,即为样本空间到数的映射。进而可以将期望顾名思义地理解为样本空间最有代表性的事件,即“期望”的事件。

定义 随机变量 g ( X ) g(X) g(X)的期望或均值,记作 E ( g ( X ) ) E(g(X)) E(g(X)),定义为: E ( g ( X ) ) = { ∫ − ∞ + ∞ g ( x ) f X ( x ) d x ,   X 为 连 续 型 随 机 变 量 , ∑ x ∈ X g ( x ) f X ( x ) ,   X 为 离 散 型 随 机 变 量 , E(g(X)) = \begin{cases} \int_{-\infty}^{+\infty}g(x)f_{X}(x){\rm d}x, X为连续型随机变量,\\ \sum \limits_{x \in \mathcal{X}}g(x)f_{X}(x), X为离散型随机变量, \end{cases} E(g(X))=+g(x)fX(x)dx, XxXg(x)fX(x) 

注意
这里之所以用一个函数 g ( X ) g(X) g(X)表示随机变量,可能与其他地方看到的对期望的定义不太一致。但回顾第二章的第五节随机变量的变换,可以发现两种定义本质上一致。上述的定义方法糅合了定理“懒惰统计学家法则”在里面,此处略去推导。之所以在这里列出上面这种定义方式,因其更具普遍性且易于记忆。

例1.1 令 X ∼ B e r n o u l l i ( p ) X \sim {\rm Bernoulli}(p) XBernoulli(p),求 E ( X ) E(X) E(X) E ( X ) = ∑ x ∈ { 0 , 1 } x f X ( x ) = 0 × ( 1 − p ) + p = p \begin{aligned} E(X) & = \sum \limits_{x \in \{0,1\}}xf_{X}(x) \\ & =0 \times(1-p)+p \\ &=p \end{aligned} E(X)=x{0,1}xfX(x)=0×(1p)+p=p
例1.2 令X服从柯西分布,已知柯西分布的pdf: f X ( x ) = 1 π ( 1 + x 2 ) f_{X}(x) = \frac{1}{\pi(1+x^{2})} fX(x)=π(1+x2)1 E ( ∣ X ∣ ) E(|X|) E(X). E ( ∣ X ∣ ) = ∫ ∣ x ∣ f X ( x ) d x , = ∫ ∣ x ∣ 1 π ( 1 + x 2 ) d x = 2 π ∫ 0 + ∞ x 1 + x 2 d x = lim ⁡ M → + ∞ 2 π ∫ 0 M x 1 + x 2 d x = lim ⁡ M → + ∞ 2 π ( 1 2 log ⁡ ( 1 + x 2 ) ∣ 0 M ) = lim ⁡ M → + ∞ 1 π log ⁡ ( 1 + M 2 ) = ∞ \begin{aligned} E(|X|)& = \int |x|f_{X}(x){\rm d}x, \\ & =\int |x|\frac{1}{\pi(1+x^{2})}{\rm d}x \\ &=\frac{2}{\pi}\int_{0}^{+\infty} \frac{x}{1+x^{2}}{\rm d}x \\ &=\lim \limits_{M \rightarrow+\infty}\frac{2}{\pi}\int_{0}^{M} \frac{x}{1+x^{2}}{\rm d}x \\ &=\lim \limits_{M \rightarrow+\infty}\frac{2}{\pi} (\frac{1}{2}\log (1+x^{2})|_{0}^{M}) \\ &=\lim \limits_{M \rightarrow+\infty}\frac{1}{\pi} \log(1+M^{2})=\infty \end{aligned} E(X)=xfX(x)dx,=xπ(1+x2)1dx=π20+1+x2xdx=M+limπ20M1+x2xdx=M+limπ2(21log(1+x2)0M)=M+limπ1log(1+M2)=上面柯西分布的 E ( ∣ X ∣ ) E(|X|) E(X)是无穷值,故而我们认为柯西分布不存在期望。

通过上面求期望的过程以及期望的定义,不难得出关于期望计算的以下性质:
1.设X是随机变量,a,b,c为常数, g 1 ( x ) , g 2 ( x ) g_{1}(x),g_{2}(x) g1(x),g2(x)是两个存在期望的函数,则: E ( a g 1 ( X ) + b g 2 ( x ) + c ) = a E ( g 1 ( x ) ) + b E ( g 2 ( x ) ) + c E(ag_{1}(X)+bg_{2}(x)+c)=aE(g_{1}(x))+bE(g_{2}(x))+c E(ag1(X)+bg2(x)+c)=aE(g1(x))+bE(g2(x))+c
2.如果 X 1 , X 2 , … , X n X_{1},X_{2},\dots,X_{n} X1,X2,,Xn为独立随机变量, a 1 , a 2 , … , a n a_{1},a_{2},\dots,a_{n} a1,a2,,an为常数,则: E ( ∑ i a i X i ) = ∑ i a i E ( X i ) E(\sum \limits_{i}a_{i}X_{i})=\sum \limits_{i}a_{i}E(X_{i}) E(iaiXi)=iaiE(Xi)
3.如果 X 1 , X 2 , … , X n X_{1},X_{2},\dots,X_{n} X1,X2,,Xn为独立随机变量,则: E ( ∏ i X i ) = ∏ i E ( X i ) E(\prod \limits_{i}X_{i})=\prod \limits_{i}E(X_{i}) E(iXi)=iE(Xi)
证明从略,提示:可先证明两个随机变量的情况,然后推广。

1.2 条件期望

对于随机变量X,Y,假设Y被观测,即Y=y,现要求X的期望。这就引出了条件期望,条件期望的定义与期望的定义类似,只不过将X的概率密度函数换成X对于Y的条件概率密度函数。定义为:
g ( X ) g(X) g(X)在给定Y的条件下的条件期望记为 E ( g ( X ) ∣ Y = y ) E(g(X)|Y=y) E(g(X)Y=y),定义为: E ( g ( X ) ) = { ∫ − ∞ + ∞ g ( x ) f X ∣ Y ( x ∣ y ) d x ,   X 为 连 续 型 随 机 变 量 , ∑ x ∈ X g ( x ) f X ∣ Y ( x ∣ y ) ,   X 为 离 散 型 随 机 变 量 , E(g(X)) = \begin{cases} \int_{-\infty}^{+\infty}g(x)f_{X|Y}(x|y){\rm d}x, X为连续型随机变量,\\ \sum \limits_{x \in \mathcal{X}}g(x)f_{X|Y}(x|y), X为离散型随机变量, \end{cases} E(g(X))=+g(x)fXY(xy)dx, XxXg(x)fXY(xy) 

2 方差与协方差

本小节深入讨论方差与协方差,方差是单一随机变量地数字特征,协方差是多个随机变量之间地数字特征。

2.1 方差

方差度量随机变量X在期望 E X EX EX附近集中程度地数字特征。方差的计算可能中学阶段就已经掌握,本小节将更深入地讨论方差。
定义
设随机变量X,若存在期望 E ( X − E ( X ) ) 2 E(X-E(X))^{2} E(XE(X))2,称其为X的方差,记为 V a r ( X ) Var(X) Var(X),也记为 V X VX VX V X = E ( X − E ( X ) ) 2 \begin{aligned} VX = E(X-E(X))^{2} \end{aligned} VX=E(XE(X))2而标准差,记为sd(X),为: s d ( X ) = V a r ( X ) sd(X)=\sqrt{Var(X)} sd(X)=Var(X)
假设方差存在,具有如下的性质:

  1. V a r ( X ) = E ( X − E ( X ) ) 2 = E ( X 2 + E 2 ( X ) − 2 X E ( X ) ) = E ( X 2 ) + E 2 ( X ) − 2 E ( X ) E ( X ) = E ( X 2 ) − E 2 ( X ) \begin{aligned}Var(X)&= E(X-E(X))^{2} \\ & = E(X^{2}+E^{2}(X)-2XE(X)) \\ & = E(X^{2})+E^{2}(X)-2E(X)E(X) \\ &= E(X^{2})-E^{2}(X) \end{aligned} Var(X)=E(XE(X))2=E(X2+E2(X)2XE(X))=E(X2)+E2(X)2E(X)E(X)=E(X2)E2(X)
  2. V a r ( a X + b ) = E ( a X + b − E ( a X + b ) ) 2 = E ( a X + b − a E ( X ) − b ) 2 = a 2 E ( X − E ( X ) ) 2 = a 2 V a r ( X ) \begin{aligned}Var(aX+b)&= E(aX+b-E(aX+b))^{2}\\ &=E(aX+b-aE(X)-b)^{2} \\ & = a^{2}E(X-E(X))^{2}\\ &=a^{2}Var(X) \end{aligned} Var(aX+b)=E(aX+bE(aX+b))2=E(aX+baE(X)b)2=a2E(XE(X))2=a2Var(X)
  3. 若X,Y独立,则: V a r ( X + Y ) = E ( X + Y − E ( X + Y ) ) 2 = E ( X − E ( X ) + Y − E ( Y ) ) 2 = E ( X − E ( X ) ) 2 + E ( Y − E ( Y ) ) 2 + 2 E ( ( X − E ( X ) ) ( Y − E ( Y ) ) ) = V a r ( X ) + V a r ( Y ) + 0 \begin{aligned}Var(X+Y)&= E(X+Y-E(X+Y))^{2}\\ &=E(X-E(X)+Y-E(Y))^{2} \\ & = E(X-E(X))^{2}+E(Y-E(Y))^{2}+2E((X-E(X))(Y-E(Y)))\\ &=Var(X)+Var(Y)+0 \end{aligned} Var(X+Y)=E(X+YE(X+Y))2=E(XE(X)+YE(Y))2=E(XE(X))2+E(YE(Y))2+2E((XE(X))(YE(Y)))=Var(X)+Var(Y)+0
    其中 E ( ( X − E ( X ) ) ( Y − E ( Y ) ) ) = 0 E((X-E(X))(Y-E(Y)))=0 E((XE(X))(YE(Y)))=0是因为X,Y相互独立。 E ( ( X − E ( X ) ) ( Y − E ( Y ) ) ) = E ( X Y + E ( X ) E ( Y ) − X E ( Y ) − Y E ( X ) ) = E ( X Y ) − E ( X ) E ( Y ) = 0 \begin{aligned} E((X-E(X))(Y-E(Y)))&=E(XY+E(X)E(Y)-XE(Y)-YE(X)) \\ &=E(XY)-E(X)E(Y)=0 \end{aligned} E((XE(X))(YE(Y)))=E(XY+E(X)E(Y)XE(Y)YE(X))=E(XY)E(X)E(Y)=0此处的推导使用了期望的性质。
    推广:如果 X 1 , X 2 , … , X n X_{1},X_{2},\dots,X_{n} X1,X2,,Xn为独立随机变量, a 1 , a 2 , … , a n a_{1},a_{2},\dots,a_{n} a1,a2,,an为常数,则: V a r ( ∑ i a i X i ) = ∑ i a i 2 V a r ( X i ) Var(\sum \limits_{i}a_{i}X_{i})=\sum \limits_{i}a_{i}^{2}Var(X_{i}) Var(iaiXi)=iai2Var(Xi)

2.2 协方差与相关系数

协方差
多维随机变量之间,不同维度必定会存在关联,比如:身高和体重等等。协方差就是衡量不同分布之间关系的一个数字特征。
定义: 对二维随机变量(X,Y),若 E ( ( X − E ( X ) ) ( Y − E ( Y ) ) ) E((X-E(X))(Y-E(Y))) E((XE(X))(YE(Y)))存在,称其为X,Y的协方差,记为: C o v ( X , Y ) = E ( ( X − E ( X ) ) ( Y − E ( Y ) ) ) Cov(X,Y)=E((X-E(X))(Y-E(Y))) Cov(X,Y)=E((XE(X))(YE(Y)))特别得 C o v ( X , X ) = V a r ( X ) Cov(X,X)=Var(X) Cov(X,X)=Var(X)
协方差与期望和方差一样又很多性质,此处不详细列举,读者可自行推导。

协方差矩阵
对二维随机变量(X,Y),定义 ( C o v ( X , X ) C o v ( X , Y ) C o v ( Y , X ) C o v ( Y , Y ) ) \left( \begin{matrix} {\rm C}ov(X,X) & {\rm C}ov(X,Y) \\ {\rm C}ov(Y,X) & {\rm C}ov(Y,Y) \end{matrix} \right) (Cov(X,X)Cov(Y,X)Cov(X,Y)Cov(Y,Y))其协方差矩阵; ( E ( X ) , E ( Y ) ) (E(X),E(Y)) (E(X),E(Y))为均值向量。
一般地,对n维随机变量 ( X 1 , X 2 , … , X n ) (X_{1},X_{2},\dots,X_{n}) (X1,X2,,Xn),定义:
( C o v ( X 1 , X 1 ) C o v ( X 1 , X 2 ) … C o v ( X 1 , X n ) C o v ( X 2 , X 1 ) C o v ( X 2 , X 2 ) … C o v ( X 2 , X n ) ⋮ ⋮ ⋱ ⋮ C o v ( X n , X 1 ) C o v ( X n , X 2 ) … C o v ( X n , X n ) ) \left( \begin{matrix} {\rm C}ov(X_{1},X_{1}) & {\rm C}ov(X_{1},X_{2}) & \dots & {\rm C}ov(X_{1},X_{n}) \\ {\rm C}ov(X_{2},X_{1}) & {\rm C}ov(X_{2},X_{2}) & \dots & {\rm C}ov(X_{2},X_{n}) \\ \vdots &\vdots& \ddots & \vdots \\ {\rm C}ov(X_{n},X_{1}) & {\rm C}ov(X_{n},X_{2}) & \dots & {\rm C}ov(X_{n},X_{n}) \\ \end{matrix} \right) Cov(X1,X1)Cov(X2,X1)Cov(Xn,X1)Cov(X1,X2)Cov(X2,X2)Cov(Xn,X2)Cov(X1,Xn)Cov(X2,Xn)Cov(Xn,Xn)为其协方差矩阵,记为 Σ \Sigma Σ;
( E ( X 1 ) , E ( X 2 ) , … , E ( X n ) ) (E(X_{1}),E(X_{2}),\dots,E(X_{n})) (E(X1),E(X2),,E(Xn))
为其均值向量。

相关系数
用协方差来表示不同分布地相关性是存在问题的,因为其受量纲的影响,根据其定义可以发现其量纲为X,Y两者量纲相乘。比如随机变量X,Y表示身高(m)体重(kg),那么 C o v ( X , Y ) {\rm C}ov(X,Y) Cov(X,Y)的单位为“m*kg”。为得到不同分布之间不受量纲限制的相关性的数字特征,就引出了相关系数。
定义:若随机变量X,Y的方差期望都存在,记 X ∗ = X − E ( X ) V a r ( X )     Y ∗ = Y − E ( Y ) V a r ( Y ) X^{*}=\frac{X-E(X)}{\sqrt{Var(X)}}\\  \\  Y^{*}=\frac{Y-E(Y)}{\sqrt{Var(Y)}}\\ X=Var(X) XE(X)  Y=Var(Y) YE(Y)则相关系数为: R ( X , Y ) = C o v ( X ∗ , Y ∗ ) = C o v ( X , Y ) V a r ( X ) V a r ( Y ) R(X,Y)={\rm C}ov(X^{*},Y^{*})=\frac{{\rm C}ov(X,Y)}{Var(X)Var(Y)} R(X,Y)=Cov(X,Y)=Var(X)Var(Y)Cov(X,Y)其中 X ∗ , Y ∗ X^{*},Y^{*} X,Y是对随便变量的标准化,所以相关系数可以理解为标准化后的协方差。相关系数的取值在 [ − 1 , + 1 ] [-1,+1] [1,+1],当其取值为1时,称X,Y完全正线性相关,-1时为完全负线性相关,取值为0时相互独立。

3 矩与矩母函数

上面介绍的期望和方差都是一种矩,当期望方差无法使用的时候,就可以使用矩来描述一个分布。而矩母函数顾名思义是可以用来求矩的一种函数,但除了求解矩,矩母函数还有一些其他的非常好的性质。

3.1 矩

矩的定义如下:
对任意整数n,X的m阶矩(moment),记作 μ n ′ \mu_{n}^{'} μn,定义为: μ n ′ = E ( X n ) . \mu_{n}^{'}=E(X^{n}) . μn=E(Xn).
X的n阶中心矩记作 μ n \mu_{n} μn,定义为: μ n = E ( ( X − μ ) n ) \mu_{n}=E((X-\mu)^{n}) μn=E((Xμ)n)其中 μ = μ 1 ′ = E ( X ) \mu=\mu_{1}^{'}=E(X) μ=μ1=E(X)
相对于期望、方差,矩这一名词更加陌生,其内在含义也难以直接理解。
对与一些常见的低阶矩,可以较为容易地理解:
一阶矩等价于期望;
二阶中心矩等价于方差;
三阶中心距与偏态系数有关;
偏态系数: S k e w = E ( ( X − μ ) 3 ) σ 3 Skew=\frac{E((X-\mu)^{3})}{\sigma^{3}} Skew=σ3E((Xμ)3)
四阶中心矩与峰态系数有关;
峰态系数: K u r t = E ( ( X − μ ) 4 ) σ 4 Kurt=\frac{E((X-\mu)^{4})}{\sigma^{4}} Kurt=σ4E((Xμ)4)
但对于高阶矩的理解,可以从“矩”的字面含义开始。所谓“矩”,即为画直角以及方形的尺。在这里有直的含义,在发散以下,有距离的意思。从距离的角度来看矩,矩即为随机变量到原点“距离”的期望,不过此处的“距离”可为负值。中心矩即为随机变量到样本空间平均点的“距离”的期望。高阶矩可以类比闵可夫斯基距离。虽然这样理解不准确,但是却可以借此理解高阶矩。
高阶矩地计算比较复杂,往往只使用四阶及其以下的矩。

3.2 矩母函数

矩母函数可以用来求随机变量的矩、确定概率分布等。
定义 X的矩母函数(或是拉普拉斯变换),记为 M X ( t ) M_{X}(t) MX(t)定义为: M X ( t ) = E ( e t X ) M_{X}(t)=E(e^{tX}) MX(t)=E(etX)其中t为实数,如果矩母函数在0的任意领域内该期望不存在,则称矩母函数不存在。
矩母函数可以进一步表示为: M X ( t ) = { ∫ − ∞ + ∞ e t x f X ( x ) d x ,   X 为 连 续 型 随 机 变 量 , ∑ x ∈ X e t x f X ( x ) ,   X 为 离 散 型 随 机 变 量 , M_{X}(t)=\begin{cases} \int_{-\infty}^{+\infty}e^{tx}f_{X}(x){\rm d}x, X为连续型随机变量,\\ \sum \limits_{x \in \mathcal{X}}e^{tx}f_{X}(x), X为离散型随机变量, \end{cases} MX(t)=+etxfX(x)dx, XxXetxfX(x) 
通过矩母函数求矩的定理如下:
若矩母函数存在,X的n阶矩等于 M X ( t ) M_{X}(t) MX(t)在t=0处的n阶导数。
证明: d d t M X ( t ) ∣ t = 0 = d d t ∫ − ∞ + ∞ e t x f X ( x ) d x ∣ t = 0 = ∫ − ∞ + ∞ d d t e t x f X ( x ) d x ∣ t = 0 = E ( X e t X ) ∣ t = 0 = E ( X ) \begin{aligned} \frac{{\rm d}}{{\rm d}t}M_{X}(t)|_{t=0}&=\frac{{\rm d}}{{\rm d}t}\int_{-\infty}^{+\infty}e^{tx}f_{X}(x){\rm d}x|_{t=0}\\ &=\int_{-\infty}^{+\infty}\frac{{\rm d}}{{\rm d}t}e^{tx}f_{X}(x){\rm d}x|_{t=0} \\ &=E(Xe^{tX})|_{t=0}=E(X) \end{aligned} dtdMX(t)t=0=dtd+etxfX(x)dxt=0=+dtdetxfX(x)dxt=0=E(XetX)t=0=E(X)则: d n t n M X ( t ) ∣ t = 0 = E ( X n ) \frac{{\rm d^{n}}}{t^{n}}M_{X}(t)|_{t=0}=E(X^{n}) tndnMX(t)t=0=E(Xn)

若随机变量X,Y的矩母函数都存在,并且对0的领域内的任意t都存在 M X ( t ) = M Y ( t ) M_{X}(t)=M_{Y}(t) MX(t)=MY(t),则对任意 u u u F X ( u ) = F Y ( u ) F_{X}(u)=F_{Y}(u) FX(u)=FY(u).
换句话说就是,若存在矩母函数,则概率分布被唯一确认。证明从略。

分布矩母函数
B e r n o u l l i ( p ) {\rm Bernoulli}(p) Bernoulli(p) p e t + 1 − p pe^{t}+1-p pet+1p
B i n o m i a l ( n , p ) {\rm Binomial}(n,p) Binomial(n,p) ( p e t + 1 − p ) n (pe^{t}+1-p)^{n} (pet+1p)n
P o i s s o n ( λ ) {\rm Poisson}(\lambda) Poisson(λ) e λ ( e t − 1 ) e^{\lambda (e^{t}-1)} eλ(et1)
N o r m a l ( μ , σ ) {\rm Normal}(\mu,\sigma) Normal(μ,σ) e μ t + σ 2 t 2 2 e^{\mu t+\frac{\sigma^{2}t^{2}}{2}} eμt+2σ2t2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值