【散布矩阵】PCA 协方差矩阵

文章介绍了散布矩阵的概念,它是用于分析多元数据集合中变量间关系的工具,特别是在统计学和机器学习中用于理解和估计方差、协方差和相关性。PCA算法是降维方法之一,通过计算散布矩阵和协方差矩阵,找出主要特征向量进行数据投影,从而降低数据的维度。文中还给出了PCA算法的具体计算步骤和示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

散布矩阵(scatter matrix)是用于描述多元数据集合中各个变量之间关系的一种矩阵。在统计学和机器学习中,散布矩阵通常用于分析数据的方差、协方差和相关性等特征。

给定一个包含 n n n 个观测值的多元数据集合,其中每个观测值包含 d d d 个变量(或特征),则该多元数据集合的散布矩阵是一个 d × d d\times d d×d 的矩阵,其中每个元素表示相应变量之间的协方差。设 X X X 是一个 n × d n\times d n×d 的数据矩阵,其中每一行表示一个观测值,每一列表示一个变量,则该多元数据集合的散布矩阵 S S S 可以表示为:

S = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( x i − x ˉ ) T S = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(x_i-\bar{x})^T S=n11i=1n(xixˉ)(xixˉ)T

其中, x ˉ \bar{x} xˉ 是数据矩阵 X X X 每一列的均值向量, x i x_i xi 是数据矩阵 X X X 的第 i i i 行向量, T ^T T 表示向量的转置操作。

散布矩阵可以用于计算多元数据集合的协方差矩阵和相关矩阵等统计量,进而进行数据分析和机器学习模型的建立和评估。

散布矩阵的计算

给定一个包含 n n n 个二维坐标的数据集合,其中每个坐标记为 ( x i , y i ) (x_i, y_i) (xi,yi),则该数据集合的散布矩阵可以按照如下步骤计算:

计算每个坐标的均值向量 x ˉ = ( x ˉ 1   x ˉ 2 ) \bar{x} = \begin{pmatrix} \bar{x}_1 \ \bar{x}_2 \end{pmatrix} xˉ=(xˉ1 xˉ2),其中 x ˉ 1 \bar{x}_1 xˉ1 x ˉ 2 \bar{x}_2 xˉ2 分别表示所有 x x x 坐标和所有 y y y 坐标的平均值。

构造 2 × 2 2\times 2 2×2 的零矩阵 S = ( 0 0   0 0 ) S = \begin{pmatrix} 0 & 0 \ 0 & 0 \end{pmatrix} S=(00 00),作为散布矩阵的初始值。

对于每个坐标 ( x i , y i ) (x_i, y_i) (xi,y

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值