主要记录多元随机变量数字特征相关内容。
关键词:多元统计分析
一元随机变量
总体
随机变量Y
总体均值
μ=E(Y)=∫yf(y) dy\mu = E(Y) = \int y f(y) \, dyμ=E(Y)=∫yf(y)dy
总体方差
σ2=Var(Y)=E(Y−μ)2\sigma^2 = Var(Y) = E(Y - \mu)^2σ2=Var(Y)=E(Y−μ)2
样本
随机样本{y1,...,yn}\{y_1, ..., y_n\}{y1,...,yn}
样本均值
yˉ=1n∑i=1nnyi\bar{y}=\frac{1}{n}\sum_{i=1^n}^ny_iyˉ=n1∑i=1nnyi
样本方差
s2=1n−1∑i=1nn(yi−yˉ)2s^2=\frac{1}{n-1}\sum_{i=1^n}^n(y_i - \bar{y})^2s2=n−11∑i=1nn(yi−yˉ)2
二元随机变量
总体
随机变量(X, Y)
总体协方差
σXY=cov(X,Y)=E[(X−μX)(Y−μY)]=E(XY)−μXμY\sigma_{XY}=cov(X, Y)=E[(X - \mu_X)(Y - \mu_Y)] = E(XY)-\mu_X\mu_YσXY=cov(X,Y)=E[(X−μX)(Y−μY)]=E(XY)−μXμY
总体相关系数
ρXY=corr(X,Y)=σXY/(σXσY)\rho_{XY}=corr(X, Y) = \sigma_{XY} / (\sigma_{X}\sigma_{Y})ρXY=corr(X,Y)=σXY/(σXσY)
说明:
可以理解变量中的 X为身高、Y为体重
根据西瓦兹不等式可得,σXY≤σXσY\sigma_{XY} \leq \sigma_{X}\sigma_{Y}σXY≤σXσY
总体相关系数取值范围 [−1,1][-1, 1][−1,1]
样本
二元随机样本 {(x1,y1),...,(xn,yn)}\{(x_1, y_1), ..., (x_n, y_n)\}{(x1,y1),...,(xn,yn)}
样本协方差
sxy=1n−1∑i=1n(xi−xˉ)(yi−yˉ)
s_{xy}=\frac{1}{n-1} \sum_{i=1}^n(x_i - \bar{x})(y_i - \bar{y})
sxy=n−11i=1∑n(xi−xˉ)(yi−yˉ)
样本相关系数
rxy=sxy/(sxsy)
r_{xy} = s_{xy} / (s_xs_y)
rxy=sxy/(sxsy)
样本相关取值范围 [−1,1][-1, 1][−1,1]
性质
σXY=0⇔X和Y是不相关/线性独立的\sigma_{XY}=0 \Leftrightarrow X和Y 是不相关/线性独立的σXY=0⇔X和Y是不相关/线性独立的
线性独立不等于独立
特例:如果X和Y服从二元正态分布,那么我们有
σXY=0⇔X和Y是独立的\sigma_{XY}=0 \Leftrightarrow X和Y 是独立的σXY=0⇔X和Y是独立的
多元数据特征
现有 nnn 个样本点,每个样本点
包含 ppp 个变量
的观测,则数据集可以表示为 n×pn \times pn×p 矩阵
Y=(y11...y1j...y1p...............yi1...yij...yip...............yn1...ynj...ynp)=(y1⊤...y2⊤...yn⊤)
Y = \begin{pmatrix}
y_{11} & ... & y_{1j} & ... & y_{1p} \\
... & ... & ... & ... & ... \\
y_{i1} & ... & y_{ij} & ... & y_{ip} \\
... & ... & ... & ... & ... \\
y_{n1} & ... & y_{nj} & ... & y_{np} \\
\end{pmatrix} = \begin{pmatrix}
y_1^\top \\
... \\
y_2^\top \\
... \\
y_n^\top
\end{pmatrix}
Y=y11...yi1...yn1...............y1j...yij...ynj...............y1p...yip...ynp=y1⊤...y2⊤...yn⊤
其中 yi=(yi1,...,yip)⊤y_i = (y_{i1}, ..., y_{ip})^\topyi=(yi1,...,yip)⊤ 由 Y 的第 iii 行构成,表示第iii个样本
对于总体
y=(Y1,...,Yp)⊤\bm{y}=(Y_1, ..., Y_p)^\topy=(Y1,...,Yp)⊤
这里的 y\bm{y}y 是随机向量
期望(即均值向量):
E(y)=(E(Y1),...,E(Yp))⊤=(μ1,...,μp)⊤=μ
E(\bm{y})=(E(Y_1), ..., E(Y_p))^\top=(\mu_1, ..., \mu_p)^\top=\bm{\mu}
E(y)=(E(Y1),...,E(Yp))⊤=(μ1,...,μp)⊤=μ
对于样本
{y1,y2,...,yn}\{ \bm{y_1}, \bm{y_2}, ..., \bm{y_n} \}{y1,y2,...,yn}
均值向量:
yˉ=1n∑i=1nyi=(y1ˉ,...,ypˉ)⊤
\bar{\bm{y}} = \frac{1}{n}\sum_{i=1}^n \bm{y_i}=(\bar{y_1}, ..., \bar{y_p})^\top
yˉ=n1i=1∑nyi=(y1ˉ,...,ypˉ)⊤
其中 yjˉ=1n∑i=1nyij,E(yˉ)=μ\bar{y_j}=\frac{1}{n}\sum_{i=1}^n y_{ij}, E(\bar{\bm{y}})=\bm{\mu}yjˉ=n1∑i=1nyij,E(yˉ)=μ
协方差矩阵(Covariance matrix)
对总体
随机向量 y=(Y1,...,Yp)⊤,p×p\bm{y}=(Y_1, ..., Y_p)^\top, p \times py=(Y1,...,Yp)⊤,p×p总体协方差矩阵定义为:
Σ=Cov(y)=E[(y−μ)(y−μ)⊤]=(σ11σ12...σ1pσ21σ22...σ2p............σp1σp2...σpp)\begin{aligned}
\boldsymbol{\Sigma} &= Cov(\bm{y}) \\
&= E[(\bm{y}-\bm{\mu})(\bm{y}-\bm{\mu})^\top] \\
&=\begin{pmatrix}
\sigma_{11} & \sigma_{12} & ... & \sigma_{1p} \\
\sigma_{21} & \sigma_{22} & ... & \sigma_{2p} \\
... & ... & ... & ... \\
\sigma_{p1} & \sigma_{p2} & ... & \sigma_{pp} \\
\end{pmatrix}
\end{aligned}Σ=Cov(y)=E[(y−μ)(y−μ)⊤]=σ11σ21...σp1σ12σ22...σp2............σ1pσ2p...σpp
其中,
σjk\sigma_{jk}σjk为 YjY_jYj和YkY_{k}Yk之间的协方差,σjj=σj2\sigma_{jj}=\sigma_{j}^2σjj=σj2 为 YjY_jYj的方差。
对样本
随机样本 {y1,...,yn},p×p\{ \bm{y_1}, ..., \bm{y_n} \}, p \times p{y1,...,yn},p×p 样本协方差矩阵定义为:
S=1n−1∑i=1n(yi−yˉ)(yi−yˉ)⊤=(s11s12...s1ps21s22...s2p............sp1sp2...spp)\begin{aligned}
\bm{S} &= \frac{1}{n-1}\sum_{i=1}^n (\bm{y_i}-\bar{\bm{y}}) (\bm{y_i}-\bar{\bm{y}})^\top \\
&= \begin{pmatrix}
s_{11} & s_{12} & ... & s_{1p} \\
s_{21} & s_{22} & ... & s_{2p} \\
... & ... & ... & ... \\
s_{p1} & s_{p2} & ... & s_{pp} \\
\end{pmatrix}
\end{aligned}S=n−11i=1∑n(yi−yˉ)(yi−yˉ)⊤=s11s21...sp1s12s22...sp2............s1ps2p...spp
其中,
sjk=1n−1∑i=1n(yij−yjˉ)(ykj−ykˉ)s_{jk}=\frac{1}{n-1}\sum_{i=1}^n(y_{ij}-\bar{y_j})(y_{kj}-\bar{y_k})sjk=n−11∑i=1n(yij−yjˉ)(ykj−ykˉ)
sjj=sj2=1n−1∑i=1n(yij−yjˉ)2s_{jj}=s_{j}^2=\frac{1}{n-1}\sum_{i=1}^n(y_{ij}- \bar{y_j})^2sjj=sj2=n−11∑i=1n(yij−yjˉ)2
性质1
Σ\boldsymbol{\Sigma}Σ和S\bm{S}S是对称的
性质2
S\bm{S}S是Σ\boldsymbol{\Sigma}Σ的无偏估计,也即E(S)=ΣE(\bm{S})=\boldsymbol{\Sigma}E(S)=Σ
性质3
yˉ\bar{\bm{y}}yˉ 的协方差矩阵是 Cov(yˉ)=ΣnCov(\bar{\bm{y}})=\frac{\boldsymbol{\Sigma}}{n}Cov(yˉ)=nΣ
性质3,对应一维情况是相似的,即样本均值的方差 Cov(xˉ)=σ2/n.Cov(\bar{x})=\sigma^2/n.Cov(xˉ)=σ2/n.
相关系数矩阵
总体相关系数矩阵
P=(ρjk)=(1ρ12...ρ1pρ211...ρ2p............ρp1ρp2...1)
\bm{P}= (\rho_{jk}) = \begin{pmatrix}
1 & \rho_{12} & ... & \rho_{1p} \\
\rho_{21} & 1 & ... & \rho_{2p} \\
... & ... & ... & ... \\
\rho_{p1} & \rho_{p2} & ... & 1
\end{pmatrix}
P=(ρjk)=1ρ21...ρp1ρ121...ρp2............ρ1pρ2p...1
其中 ρjk=σjk/(σjσk)\rho_{jk}=\sigma_{jk} / (\sigma_j \sigma_k)ρjk=σjk/(σjσk) 为YjY_{j}Yj与YkY_{k}Yk之间的总体相关系数
样本相关系数矩阵
对随机样本 {y1,...,yn}\{\bm{y_1}, ..., \bm{y_n}\}{y1,...,yn}来说,
R=(rjk)=(1r12...r1pr211...r2p............rp1rp2...1)
\bm{R}= (r_{jk}) = \begin{pmatrix}
1 & r_{12} & ... & r_{1p} \\
r_{21} & 1 & ... & r_{2p} \\
... & ... & ... & ... \\
r_{p1} & r_{p2} & ... & 1
\end{pmatrix}
R=(rjk)=1r21...rp1r121...rp2............r1pr2p...1
其中 rjk=sjk/sjjskk=sjk/(sjsk)r_{jk}=s_{jk} / \sqrt{s_{jj}s_{kk}}=s_{jk} / (s_js_k)rjk=sjk/sjjskk=sjk/(sjsk) 为第jjj 和第kkk 个变量之间的样本相关系数
协方差矩阵的用途
1.刻画数据整体离散型
如果∣S∣|S|∣S∣很小,有可能是数据波动比较小,也有可能是存在共线性现象。故∣S∣|S|∣S∣称为广义方差
。
tr(S)tr(S)tr(S)刻画了各变量波动程度的总和,但忽略了变量间的相关性,故成为总方差
。
2.定义统计距离
一元情况
欧式距离:∣y1−y2∣|y_1 - y_2|∣y1−y2∣
标准化后的距离:∣y1−y2∣/sy|y_1 - y_2| / s_y∣y1−y2∣/sy
多元情况
在多元情况中,对于两个ppp维向量
y1=(y11,...,y1p)⊤\bm{y_1}=(y_11, ..., y_1p)^\topy1=(y11,...,y1p)⊤
y2=(y21,...,y2p)⊤\bm{y_2}=(y_21, ..., y_2p)^\topy2=(y21,...,y2p)⊤
欧式距离定义为:
∣∣y1−y2∣∣=(y1−y2)⊤(y1−y2)=∑j=ip(y1j−y2j)2
||\bm{y_1}-\bm{y_2}|| = \sqrt{(\bm{y_1}-\bm{y_2})^\top(\bm{y_1}-\bm{y_2})}=\sqrt{\sum_{j=i}^p(y_{1j}-y_{2j})^2}
∣∣y1−y2∣∣=(y1−y2)⊤(y1−y2)=j=i∑p(y1j−y2j)2
欧式距离只考虑了分量各自的距离,没有考虑到不同变量变化的尺度不同,以及变量之间的相关性。
统计距离/马氏距离
类似于一元情况∣y1−y2∣/sy|y_1 - y_2|/s_y∣y1−y2∣/sy,我们定义 y1\bm{y_1}y1和y2\bm{y_2}y2之间的统计距离/马氏距离:
d=(y1−y2)⊤ S−1(y1−y2)
d = \sqrt{(\bm{y_1-\bm{y_2}})^\top \, \bm{S}^{-1}(\bm{y_1-\bm{y_2}})}
d=(y1−y2)⊤S−1(y1−y2)
统计距离而言,方差更大的变量贡献更小的权重,两个高度相关的变量的贡献小于两个相关性较低的变量。
欧氏距离vs统计距离
统计距离其实是两个经过“标准化”的向量S−1/2y1\bm{S}^{-1/2} \bm{y_1}S−1/2y1 和 S−1/2y2\bm{S}^{-1/2} \bm{y_2}S−1/2y2 之间的欧式距离:
∣∣S−1/2y1−S−1/2y2∣∣=(y1−y2)⊤ S−1(y1−y2) ||\bm{S}^{-1/2}\bm{y_1} - \bm{S}^{-1/2}\bm{y_2}|| = \sqrt{(\bm{y_1-\bm{y_2}})^\top \, \bm{S}^{-1}(\bm{y_1-\bm{y_2}})} ∣∣S−1/2y1−S−1/2y2∣∣=(y1−y2)⊤S−1(y1−y2)
为什么是 S−1/2y1\bm{S}^{-1/2}\bm{y_1}S−1/2y1 的形式?我们可以计算得到其协方差实际就是一个单位矩阵I\bm{I}I
Cov(S−1/2y1)=Ip Cov(\bm{S^{-1/2}y_1}) = \bm{I}_p Cov(S−1/2y1)=Ip
由此可得,经过标准化后的 S−1/2y1\bm{S^{-1/2}y_1}S−1/2y1 各变量之间的相关系数为0,不同变量之间协方差为0,变量自身的方差也标准化为了1。
随机变量的线性组合
y=(Y1,...,Yp)⊤\bm{y}=(Y_1, ..., Y_p)^\topy=(Y1,...,Yp)⊤ 的均值 μ\muμ,协方差矩阵为Σ\boldsymbol{\Sigma}Σ
定义线性组合:
Z=a⊤y=∑j=1pajYj
Z=\bm{a}^\top\bm{y}=\sum_{j=1}^pa_jY_j
Z=a⊤y=j=1∑pajYj
其中 a=(a1,...,ap)⊤\bm{a}=(a_1, ..., a_p)^\topa=(a1,...,ap)⊤是系数向量。
则对随机变量ZZZ 我们有:
E(Z)=E(a⊤y)=a⊤μE(Z)=E(\bm{a}^\top\bm{y})=\bm{a^\top \mu}E(Z)=E(a⊤y)=a⊤μ
var(Z)=var(a⊤y)=a⊤Σ avar(Z)=var(\bm{a}^\top\bm{y})=\bm{a^\top \boldsymbol{\Sigma} \, a}var(Z)=var(a⊤y)=a⊤Σa
如果我们有另一个线性组合:
W=b⊤y=∑j=1pbjYj
W=\bm{b}^\top\bm{y}=\sum_{j=1}^pb_jY_j
W=b⊤y=j=1∑pbjYj
则可以计算ZZZ和WWW之间的线性关系:
σZW=cov(Z,W)=E(a⊤ y−a⊤μ)(b⊤ y−b⊤μ)=a⊤Σ b\begin{aligned}
\sigma_{ZW} &=cov(Z, W) \\
&=E(\bm{a^\top\,y-a^\top\mu})(\bm{b^\top\,y-b^\top\mu}) \\
&=\bm{a^\top\boldsymbol{\Sigma}} \, \bm{b}
\end{aligned}σZW=cov(Z,W)=E(a⊤y−a⊤μ)(b⊤y−b⊤μ)=a⊤Σb
ρZW=corr(Z,W)=a⊤Σ b(a⊤Σ a)(b⊤Σ b) \rho_{ZW}=corr(Z, W)=\frac{\bm{a^\top\boldsymbol{\Sigma}} \, \bm{b}}{\sqrt{(\bm{a^\top\boldsymbol{\Sigma}} \, \bm{a})(\bm{b^\top\boldsymbol{\Sigma}} \, \bm{b})}} ρZW=corr(Z,W)=(a⊤Σa)(b⊤Σb)a⊤Σb
如果是多个线性组合呢?
考虑 qqq个Y1,...,YpY_1,..., Y_pY1,...,Yp的线性组合,记作 z=Ay\bm{z}=\bm{Ay}z=Ay, A=(aij)q×p\bm{A}=(a_{ij})_{q \times p}A=(aij)q×p,则我们有:
μz=E(Ay)=Aμ,
\mu_{\bm{z}}=E(\bm{Ay})=\bm{A\mu},
μz=E(Ay)=Aμ,
Σz=Cov(z)=AΣA⊤
\boldsymbol{\Sigma}_{\bm{z}}=Cov(\bm{z})=\bm{A\boldsymbol{\Sigma}A^\top}
Σz=Cov(z)=AΣA⊤
更一般的,对 w=Ay+b\bm{w=Ay + b}w=Ay+b, 其中 bbb为常向量,有
μw=E(Ay+b)=Aμ+b,
\mu_{\bm{w}}=E(\bm{Ay + b}) = \bm{A\mu + b},
μw=E(Ay+b)=Aμ+b,
Σw=Cov(w)=AΣA⊤
\boldsymbol{\Sigma}_{\bm{w}}=Cov(\bm{w})=\bm{A\boldsymbol{\Sigma}A^\top}
Σw=Cov(w)=AΣA⊤
(待更新)