大数据中的在线异常检测:一线防御
1. 主成分分析基础
在大数据异常检测中,主成分分析(PCA)是一种常用的技术。首先,选取前 $L$ 个特征向量来构成加载矩阵 $\mathbf{P}$:
$$\mathbf{P} = [\mathbf{v} 1, \mathbf{v}_2, \ldots, \mathbf{v}_L]$$
然后定义得分矩阵 $\mathbf{T}$ 为:
$$\mathbf{T} = \mathbf{X}\mathbf{P}$$
其中,$M \times L$ 的矩阵 $\mathbf{T} = [\mathbf{t}_1, \mathbf{t}_2, \ldots, \mathbf{t}_N]$ 被称为得分矩阵,$\mathbf{T}$ 的每一列 $\mathbf{t}_1, \mathbf{t}_2, \ldots, \mathbf{t}_N$ 被称为得分向量。$\mathbf{T}$ 的每一行可以表示为:
$$\mathbf{t}_i^T = \mathbf{x}_i^T \mathbf{P}$$
将 $\mathbf{T} = \mathbf{X}\mathbf{P}$ 两边右乘 $\mathbf{P}^T$ 可得:
$$\mathbf{T}\mathbf{P}^T = \mathbf{X}\mathbf{P}\mathbf{P}^T = \hat{\mathbf{X}} \approx \mathbf{X}$$
因此,数据矩阵 $\mathbf{X}$ 可以写成:
$$\mathbf{X} = \mathbf{T}\mathbf{P}^T + \mathbf{E} = \sum {
超级会员免费看
订阅专栏 解锁全文
652

被折叠的 条评论
为什么被折叠?



