论文笔记 AAAI2020 Deep Embedded Complementary and Interactive Information for Multi-view Classification

最新推荐文章于 2025-03-10 11:35:13 发布

原创

最新推荐文章于 2025-03-10 11:35:13 发布 · 1.5k 阅读

CC 4.0 BY-SA版权

文章标签：

论文探讨了多视图学习在计算机视觉中的应用，通过深度嵌入和交互信息提升分类性能。研究了包括拼接、投影变换和监督扩展在内的多种方法，并提出了一种新的深度学习投影变换策略，利用神经网络捕捉视图间的互补和互动信息。通过多视图损失融合优化过程，实现在多个数据集上优于现有方法的实验结果。

最近看到了这篇文章，觉得可以拿来参考，先做个阅读笔记记录一下。

论文阅读

论文背景介绍，如果是熟悉多视图学习的可以跳过。

多视图学习通过充分利用互补视图来进一步改进各种计算机视觉应用的性能，不同视图之间的深入交互信息以及融合。多视图是指对象的多种不同表示形式，并全面地描述了对象的所有信息。在实际应用中，许多对象具有一组以多种视图形式呈现的不同且互补的表示形式。（简单点比喻，一张RGB图片3个通道都能认为是3个视图。）

一种比较原始直接的做法就是把多个视图数据拼成一个文件然后计算。这样做有两个缺点：

除了上面原始的做法之外，还有人提出了投影变换的方法。对于一对（2个）视图，学习两个投影矩阵使两个视图投影后结果互相关性最大，或者以通过最大化所有成对视图的总相关性来获得多个变换。比起直接拼接该方法利用了视图间的相互信息，然而它是无监督的，可能导致获得的转换不利于分类。

针对上述投影无监督的缺点就有人提出了一个改进方向，就是利用LDA（线性判别，可以当做二分类模型，也可以认为是把数据降维到class_num-1维的降维方法）的方法学习线性变换来找到可区分的公共空间。但是，这些基于LDA的方法在某些具有挑战性的方案中无法捕获某些微妙但重要的结构。

研究表明利用更灵活的深度神经网络来学习非线性表示可以实现更高的性能。用深层的神经网络来学习这个投影变换。有深度LDA的，也有共同训练多个网络以让它们相似的，还有借用VAE架构，让视图之间的重构结果相似，以及利用核方法的。
在这里插入图片描述

该文章的创新思想为：

先把结构图放出来，按照图分部分说明
在这里插入图片描述

在这里插入图片描述
不同视图的原始数据可能不同维度（尺寸），我们用不同的神经网络提取特征的同时可以把他们放到同一维度。也就是模型结构的开头部分。

经过预处理之后，假设每个视图的数据都变成d维了。对于两个不同的视图