通过一个简单的例子来具体说明如何处理不完整多视图数据中的核矩阵 K v K_v Kv。假设我们有一个包含三个视图的数据集,每个视图有四个样本。但是,第三个样本在第二个视图中缺失,第四个样本在第三个视图中缺失。
假设的核矩阵
视图 1 ( K 1 K_1 K1):
K 1 = ( 1 0.8 0.7 0.6 0.8 1 0.5 0.4 0.7 0.5 1 0.3 0.6 0.4 0.3 1 ) K_1 = \begin{pmatrix} 1 & 0.8 & 0.7 & 0.6 \\ 0.8 & 1 & 0.5 & 0.4 \\ 0.7 & 0.5 & 1 & 0.3 \\ 0.6 & 0.4 & 0.3 & 1 \end{pmatrix} K1= 10.80.70.60.810.50.40.70.510.30.60.40.31
视图 2 ( K 2 K_2 K2):
K 2 = ( 1 0.7 − 0.5 0.7 1 − 0.6 − − − − 0.5 0.6 − 1 ) K_2 = \begin{pmatrix} 1 & 0.7 & - & 0.5 \\ 0.7 & 1 & - & 0.6 \\ -& - & - & - \\ 0.5 & 0.6 & - & 1 \end{pmatrix} K2= 10.7−0.50.71−0.6−−−−0.50.6−1
视图 3 ( K 3 K_3 K3):
K 3 = ( 1 0.6 0.5 − 0.6 1 0.4 − 0.5 0.4 1 − − − − − ) K_3 = \begin{pmatrix} 1 & 0.6 & 0.5 & - \\ 0.6 & 1 & 0.4 & - \\ 0.5 & 0.4 & 1 & - \\ -& - & - & - \end{pmatrix} K3= 10.60.5−0.610.4−0.50.41−−−−−
(注:‘-’ 表示缺失值)
处理步骤
-
初始化:对于每个视图,将缺失的值初始化为零。
-
K 2 K_2 K2 初始化后:
K 2 = ( 1 0.7 0 0.5 0.7 1 0 0.6 0 0 0 0 0.5 0.6 0 1 ) K_2 = \begin{pmatrix} 1 & 0.7 & 0 & 0.5 \\ 0.7 & 1 & 0 & 0.6 \\ 0 & 0 & 0 & 0 \\ 0.5 & 0.6 & 0 & 1 \end{pmatrix} K2= 10.700.50.7100.600000.50.601 -
K 3 K_3 K3 初始化后:
K 3 = ( 1 0.6 0.5 0 0.6 1 0.4 0 0.5 0.4 1 0 0 0 0 0 ) K_3 = \begin{pmatrix} 1 & 0.6 & 0.5 & 0 \\ 0.6 & 1 & 0.4 & 0 \\ 0.5 & 0.4 & 1 & 0 \\ 0 & 0 & 0 & 0 \end{pmatrix} K3= 10.60.500.610.400.50.4100000
-
-
相似性图构建:基于初始化后的核矩阵 K 1 K_1 K1、 K 2 K_2 K2 和 K 3 K_3 K3 构建相似性图。这个图反映了不同数据点之间的关系。
-
核矩阵补全:使用构建的相似性图来指导缺失核矩阵 K v K_v Kv 的补全。例如,假设我们已经构建了一个初步的相似性图,发现第一个样本和第三个样本在视图 1 中非常相似,那么可以推测它们在视图 2 和视图 3 中也可能相似。因此,可以尝试用相似性图中的信息来补全 K 2 K_2 K2 和 K 3 K_3 K3 中的缺失值。
-
补全 K 2 K_2 K2:
K 2 = ( 1 0.7 0.7 0.5 0.7 1 0.5 0.6 0.7 0.5 1 0.4 0.5 0.6 0.4 1 ) K_2 = \begin{pmatrix} 1 & 0.7 & 0.7 & 0.5 \\ 0.7 & 1 & 0.5 & 0.6 \\ 0.7 & 0.5 & 1 & 0.4 \\ 0.5 & 0.6 & 0.4 & 1 \end{pmatrix} K2= 10.70.70.50.710.50.60.70.510.40.50.60.41 -
补全 K 3 K_3 K3:
K 3 = ( 1 0.6 0.5 0.4 0.6 1 0.4 0.3 0.5 0.4 1 0.3 0.4 0.3 0.3 1 ) K_3 = \begin{pmatrix} 1 & 0.6 & 0.5 & 0.4 \\ 0.6 & 1 & 0.4 & 0.3 \\ 0.5 & 0.4 & 1 & 0.3 \\ 0.4 & 0.3 & 0.3 & 1 \end{pmatrix} K3= 10.60.50.40.610.40.30.50.410.30.40.30.31
-
-
迭代优化:在后续的迭代中,利用更新后的核矩阵重新构建相似性图,再用新的相似性图进一步改进核矩阵的补全。这个过程不断循环,直到达到预设的停止条件,如迭代次数或变化幅度小于某个阈值。
-
聚类分析:最终,基于补全后的核矩阵和相似性图进行聚类分析,得到最终的聚类结果。
通过这种方法,即使原始数据存在缺失,也可以有效地挖掘出数据间的潜在关联,实现高质量的聚类。这种方法特别适用于那些由于各种原因(如传感器故障、数据收集不全等)导致数据不完整的应用场景。