LDL组会论文分享

提升标签精度：低秩表示引导样本相关性预测

原创已于 2022-11-16 16:04:13 修改 · 398 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算法

于 2022-11-16 15:32:12 首次发布

Label Enhancement with Sample Correlations via Low-Rank Representation 论文分享

method

采用低秩表示方法（low-rank representation）来捕获样本的全局关系并预测隐式标签相关性以实现标签增强。

motivation

基于部分的每个实例的图构建过程中仅利用了局部拓扑特征，而特征空间的整体信息还没有得到很大的利用。
方法需要超参数的先验知识

期望一种全局挖掘整个特征空间的全局结构并对参数具有鲁棒性的方法

具体做法

low-rank representation（LRR）对数据子空间表示施加低秩约束以捕获所有实例的全局关系。
构建的低秩结构通常可以平滑地转移到标签空间，所以利用特征空间的最低秩表示来表示标签分布的LRR。
将获得的 LRR 合并到目标函数中，以探索标签分布空间中的隐藏线索。
在这里插入图片描述

notations

$[\mathcal{x}_1;x_2;...x_n]$	feature matrix
$\Gamma=[L_1;L_2;...L_n]$	logical label matrix
$\mathfrak{D}=[D_1;D_2;...D_n]$	label distribution matrix

mapping model

对于实例 $x_i$ ,其标签分布为 $D_i=\phi(\hat{\theta},\xi(x_i)).$
$\phi(\hat{\theta},\cdotp)$ 表示由 $\hat{\theta}$ 参数化的线性变换.
$\xi(x_i)$ 表示高斯核函数将 $x_i$ （也就是特征）映射到高维空间中

$\hat{\theta}$ 的最优化

$\min\limits_{\hat{\theta}}\mathcal{L}(\hat{\theta})+\lambda_1\Psi(\hat{\theta})$
$\mathcal{L}(\hat{\theta})$ 代表损失函数
$\Psi(\hat{\theta})$ 是挖掘原始特征空间中信息和标签之间的相关性的函数

损失函数

The least-squares (LS) loss function：
$\mathcal{L}(\hat{\theta})=\sum_{i=1}^n\Big\lVert\phi(\hat{\theta},\xi(x_i))-L_i\Big\rVert$

挖掘函数

在LRR中，所有样本及其全局关系都由少量数据的线性组合表示，在一般情况下，该属性可以转移到标签空间。
因此，可以得到标签分布 $\mathfrak{D}$ 的低秩恢复，即找到一个合适的 $\mathfrak{D}$ ，使 $\mathfrak{D}$ 与 $\mathfrak{D}\hat{C}$ 的距离最小，其中 $\hat{C}$ 是特征空间的最小LRR。
$\Psi(\hat{\theta})=\Big\lVert\mathfrak{D}-\mathfrak{D}\hat{C}\Big\rVert_F^2=\Big\lVert(I-\hat{C}^T)\mathfrak{D}^T\Big\rVert_F^2$

$\hat{C}$ 的最优化

在特征矩阵中寻找LRR来挖掘特征空间的全局结构，即假设 $X = X C + E$ ，然后解决以下正则化秩最小化问题:
$\min\limits_{C,E}rank(C)+\lambda_2\lVert E\rVert_l,s.t.,X=XC+E$
$E$ 是 the sample-specific corruptions.

为计算方便，秩函数用核范数代替：
$\min\limits_{C,E}\lVert C\rVert_*+\lambda_2\lVert E\rVert_{2,1},s.t.,X=XC+E$

向量范数与矩阵范数

目标函数

$P\Big(\hat{\theta}\Big)=\sum_{i=1}^n\Big\lVert\phi(\hat{\theta},\xi(x_i))-L_i\Big\rVert+\lambda_1\Big\lVert(I-\hat{C}^T)\mathfrak{D}^T\Big\rVert_F^2 \\ =tr\Big[\Big(\phi\Big(\hat{\theta},\Xi),-\Gamma\Big)^T(\phi\Big(\hat{\theta},\Xi\Big),-\Gamma\Big)\Big]\\ +\lambda_1tr\Big(\mathfrak{D}\Big(I-\hat{C}\Big)\Big(I-\hat{C^T}\Big)\mathfrak{D}^T\Big)\Big)$