基于Frobenius范数构造 L 2 L_2 L2-图的子空间聚类方法
引言
在子空间聚类中,基于Frobenius范数构造
L
2
L_2
L2-图的方法是一种常用的技术,它通过量化数据点之间的关系
来构建图表示,进而实现对数据点的聚类。
这种方法特别适合于处理高维数据,其中数据点分布在不同的低维子空间内。
基本原理
L
2
L_2
L2-图的构建依赖于Frobenius范数
,这是一种衡量矩阵或张量元素平方和的根的范数。
通过最小化数据点表示误差
的Frobenius范数,我们能找出数据点之间最合适的线性表示方式,进而
构建出反映数据点间相似性的图。
构造L2-图
给定一组数据点
X
=
{
x
1
,
x
2
,
…
,
x
N
}
\mathbf{X} = \{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_N\}
X={x1,x2,…,xN},其中
x
i
∈
R
d
\mathbf{x}_i \in \mathbb{R}^d
xi∈Rd,我们的目标是找到一个表示矩阵
C
\mathbf{C}
C,其中每一行
c
i
c_i
ci 表示数据点
x
i
\mathbf{x}_i
xi 如何通过其他数据点的线性组合来表示
。即,
x i = ∑ j = 1 N c i j x j \mathbf{x}_i = \sum_{j=1}^{N} c_{ij} \mathbf{x}_j xi=j=1∑Ncijxj
目标函数
为了构建 L 2 L_2 L2-图,我们最小化表示误差的Frobenius范数,目标函数可以表示为:
min C ∥ X − X C ∥ F 2 \min_{\mathbf{C}} \|\mathbf{X} - \mathbf{XC}\|_F^2 Cmin∥X−XC∥F2
这里,
∥
⋅
∥
F
\|\cdot\|_F
∥⋅∥F 表示Frobenius范数,
C
\mathbf{C}
C 是一个
N
×
N
N \times N
N×N 的表示矩阵
,其中
C
X
\mathbf{C}\mathbf{X}
CX 表示数据点通过其他数据点线性组合的重构。
优化目标
目标函数可以展开为:
min C ∑ i = 1 N ∥ x i − ∑ j = 1 N c i j x j ∥ 2 \min_{\mathbf{C}} \sum_{i=1}^{N} \|\mathbf{x}_i - \sum_{j=1}^{N} c_{ij} \mathbf{x}_j\|^2 Cmini=1∑N∥xi−j=1∑Ncijxj∥2
这表明我们要 最小化每个数据点与其通过其他数据点线性组合
得到的重构之间的误差平方和。
约束条件
为了防止数据点用自身表示自身
,通常会添加如下约束:
C ⊙ I = 0 \mathbf{C} \odot \mathbf{I} = \mathbf{0} C⊙I=0
其中,
I
\mathbf{I}
I 是单位矩阵,
⊙
\odot
⊙ 表示Hadamard乘积
(逐元素乘积),
0
\mathbf{0}
0 是零矩阵。
这个约束确保了矩阵
C
\mathbf{C}
C 的对角线元素为零,即数据点不会用自身来表示自身。
构建相似度矩阵
一旦找到表示矩阵
C
\mathbf{C}
C,我们可以构建相似度矩阵
W
\mathbf{W}
W,它反映了数据点之间的相似度
。通常,
W
\mathbf{W}
W 可以定义为
C
\mathbf{C}
C 的绝对值:
W = ∣ C ∣ \mathbf{W} = |\mathbf{C}| W=∣C∣
谱聚类
最后,基于相似度矩阵 W \mathbf{W} W,我们可以使用谱聚类算法来对数据点进行聚类。谱聚类涉及构建拉普拉斯矩阵 L \mathbf{L} L,然后计算 L \mathbf{L} L 的特征向量,并使用 k k k-means 或其他聚类算法对特征向量进行聚类。
拉普拉斯矩阵
L
\mathbf{L}
L 定义为:
L = D − W \mathbf{L} = \mathbf{D} - \mathbf{W} L=D−W
其中 D \mathbf{D} D 是度矩阵,其对角线元素为 W \mathbf{W} W 的行和。
结论
基于Frobenius范数构造 L 2 L_2 L2-图的子空间聚类方法提供了一种系统的方式,通过量化数据点之间的关系,构建图表示,从而实现对高维数据的有效聚类。
这种方法通过最小化表示误差的Frobenius范数,确保了数据点能够被合理地表示为其他数据点的线性组合,进而揭示了数据点间的内在结构和潜在的子空间分布。