观测矩阵
例:如果观测NNN个人的体重www和身高hhh,这样会形成R2R^2R2的样本空间,观测向量XjX_jXj(Xj⊆R2X_j\subseteq R^2Xj⊆R2)表示第jjj个人体重和身高,观测矩阵可以表示为:
[w1w1…wNh1h2…hN]\begin{bmatrix}w_1&w_1&\dots &w_N\\h_1&h_2&\dots &h_N \end{bmatrix}[w1h1w1h2……wNhN]
其中:
X1=[w1h1]X_1=\begin{bmatrix}w_1\\h_1 \end{bmatrix}X1=[w1h1],X2=[w2h2]X_2=\begin{bmatrix}w_2\\h_2 \end{bmatrix}X2=[w2h2],XN=[wNhN]X_N=\begin{bmatrix}w_N\\h_N \end{bmatrix}XN=[wNhN],这些为观测向量。
均值和协方差
假设[X1X2…XN][X_1\quad X_2\quad \dots \quad X_N][X1X2…XN]是p×Np\times Np×N的观测矩阵,观测向量X1X_1X1、X2X_2X2和XNX_NXN的样本均值MMM为:
M=1N(X1+X2+⋯+XN)M=\dfrac{1}{N}(X_1+X_2+\dots +X_N)M=N1(X1+X2+⋯+XN)
如果将原观测测向量画成散列图(scatter),那么样本均值MMM就是散列图中数据的中心。
令X^k=Xk−M\hat{X}_{k}=X_k-MX^k=Xk−M,k=1,2,…,Nk=1,2,\dots ,Nk=1,2,…,N
则构成新的矩阵B=[X^1X^2…X^N]B=[\hat{X}_{1}\quad \hat{X}_{2}\quad \dots \quad \hat{X}_{N}]B=[X^1X^2…X^N],此矩阵BBB称为平均偏差形式,且具有零样本均值。矩阵BBB的散列图的中心在坐标原点。
协方差矩阵(covariance matrix):协方差矩阵是一个p×pp\times pp×p的矩阵SSS,且满足:S=1N−1BBTS=\dfrac{1}{N-1}BB^TS=N−11BBT
由于任何具有BBTBB^TBBT的矩阵都是半正定的(如果BBB是m×nm\times nm×n的矩阵,那么BBTBB^TBBT是半正定的),所以SSS也是半正定的。
注:协方差矩阵也常记作Σ\SigmaΣ
例:从一个总体中随机抽取4个样本做3次测量,每个样本的观测向量为:
X1=[121]X_1=\begin{bmatrix}1\\2\\1 \end{bmatrix}X1=⎣⎡121⎦⎤,X2=[4213]X_2=\begin{bmatrix}4\\2\\13 \end{bmatrix}X2=⎣⎡4213⎦⎤,X3=[781]X_3=\begin{bmatrix}7\\8\\1 \end{bmatrix}X3=⎣⎡781⎦⎤,X4=[845]X_4=\begin{bmatrix}8\\4\\5 \end{bmatrix}X4=⎣⎡845⎦⎤,
求样本均值及协方差矩阵。
解:
样本均值:
M=14([121]+[4213]+[781]+[845])=14[201620]=[545]M=\dfrac{1}{4}(\begin{bmatrix}1\\2\\1 \end{bmatrix}+\begin{bmatrix}4\\2\\13 \end{bmatrix}+\begin{bmatrix}7\\8\\1 \end{bmatrix}+\begin{bmatrix}8\\4\\5 \end{bmatrix})=\dfrac{1}{4}\begin{bmatrix}20\\16\\20 \end{bmatrix}=\begin{bmatrix}5\\4\\5 \end{bmatrix}M=41(⎣⎡121⎦⎤+⎣⎡4213⎦⎤+⎣⎡781⎦⎤+⎣⎡845⎦⎤)=41⎣⎡201620⎦⎤=⎣⎡545⎦⎤
从X1X_1X1、X2X_2X2和XNX_NXN中减去样本均值MMM得:
X1^=[−4−2−4]\hat{X_1}=\begin{bmatrix}-4\\-2\\-4 \end{bmatrix}X1^=⎣⎡−4−2−4⎦⎤,X2^=[−1−28]\hat{X_2}=\begin{bmatrix}-1\\-2\\8 \end{bmatrix}X2^=⎣⎡−1−28⎦⎤,X3^=[24−4]\hat{X_3}=\begin{bmatrix}2\\4\\-4 \end{bmatrix}X3^=⎣⎡24−4⎦⎤,X4^=[300]\hat{X_4}=\begin{bmatrix}3\\0\\0 \end{bmatrix}X4^=⎣⎡300⎦⎤
所以得到BBB矩阵:
B=[−4−123−2−240−48−40]B=\begin{bmatrix}-4&-1&2&3\\-2&-2&4&0\\-4&8&-4&0 \end{bmatrix}B=⎣⎡−4−2−4−1−2824−4300⎦⎤
矩阵BBB为原样本经过居中处理后的样本。
所以,样本的协方差矩阵SSS为:
S=1N−1BBT=14−1[−4−123−2−240−48−40][−4−2−4−1−2824−4300]=13[301801824−240−2496]=[106068−80−832]S=\dfrac{1}{N-1}BB^T=\dfrac{1}{4-1}\begin{bmatrix}-4&-1&2&3\\-2&-2&4&0\\-4&8&-4&0 \end{bmatrix}\begin{bmatrix}-4&-2&-4\\-1&-2&8\\2&4&-4\\3&0&0 \end{bmatrix}=\dfrac{1}{3}\begin{bmatrix}30&18&0\\18&24&-24\\0&-24&96 \end{bmatrix}=\begin{bmatrix}10&6&0\\6&8&-8\\0&-8&32 \end{bmatrix}S=N−11BBT=4−11⎣⎡−4−2−4−1−2824−4300⎦⎤⎣⎢⎢⎡−4−123−2−240−48−40⎦⎥⎥⎤=31⎣⎡301801824−240−2496⎦⎤=⎣⎡106068−80−832⎦⎤
用x1,x2,…,xpx_1,x_2,\dots,x_px1,x2,…,xp表示XXX的坐标,例如x1x_1x1是X1,X2,…,XNX_1,X_2,\dots,X_NX1,X2,…,XN集合中变化的第一个坐标的数值。对j=1,2,…,pj=1,2,\dots,pj=1,2,…,p(本例中p=3p=3p=3,N=4N=4N=4),矩阵SSS的对角线元素sjjs_{jj}sjj就是xjx_jxj的方差,xjx_jxj的方差用于度量xjx_jxj值的分散性。
所以本例中,x1x_1x1方差为10,x2x_2x2方差为8,x3x_3x3方差为32。
x3x_3x3方差为32,大于x1x_1x1方差10,这表明对应向量中第三个元素的集合包含比第一个元素的集合更大的取值范围。
数据的总方差是矩阵SSS对角线上方差的和,也就是SSS的迹(trace)tr(S)tr(S)tr(S)。
矩阵SSS中的元素sij(i≠j)s_{ij}(i\ne j)sij(i=j)称为xix_ixi和xjx_jxj的协方差。
协方差就是不同维度的数据(减去平均值后,即居中处理后)的点积,再乘以1N−1\dfrac{1}{N-1}N−11。
x1x_1x1、x2x_2x2和x3x_3x3在本例中是4个样本的三个维度,即x1=[−4−123]x_1=[-4\quad -1 \quad 2 \quad 3]x1=[−4−123],x2=[−2−240]x_2=[-2\quad -2 \quad 4 \quad 0]x2=[−2−240],x3=[−48−40]x_3=[-4\quad 8 \quad -4 \quad 0]x3=[−48−40]。
本例中,x1x_1x1和x3x_3x3之间的协方差是0,这是因为s13=0s_{13}=0s13=0,这种情况在统计学上被称为:x1x_1x1和x3x_3x3是无关的。
如果大部分或者所有变量x1x_1x1、x2x_2x2…、xpx_pxp是无关的,即当X1,X2,…,XNX_1,X_2,\dots,X_NX1,X2,…,XN的协方差矩阵是对角阵或几乎是对角阵时,X1,X2,…,XNX_1,X_2,\dots,X_NX1,X2,…,XN中多变量的数据的分析可以简化。
3384

被折叠的 条评论
为什么被折叠?



