论文笔记 AAAI2020 Deep Embedded Complementary and Interactive Information for Multi-view Classification

论文探讨了多视图学习在计算机视觉中的应用,通过深度嵌入和交互信息提升分类性能。研究了包括拼接、投影变换和监督扩展在内的多种方法,并提出了一种新的深度学习投影变换策略,利用神经网络捕捉视图间的互补和互动信息。通过多视图损失融合优化过程,实现在多个数据集上优于现有方法的实验结果。


最近看到了这篇文章,觉得可以拿来参考,先做个阅读笔记记录一下。

论文阅读

先附上论文地址

内容简介

论文背景介绍,如果是熟悉多视图学习的可以跳过。

多视图学习

多视图学习通过充分利用互补视图来进一步改进各种计算机视觉应用的性能,不同视图之间的深入交互信息以及融合。多视图是指对象的多种不同表示形式,并全面地描述了对象的所有信息。在实际应用中,许多对象具有一组以多种视图形式呈现的不同且互补的表示形式。(简单点比喻,一张RGB图片3个通道都能认为是3个视图。)

拼接

一种比较原始直接的做法就是把多个视图数据拼成一个文件然后计算。这样做有两个缺点:

  1. 忽略了视图间的相互信息
  2. 没有体现不同视图不同的重要程度

投影变换

除了上面原始的做法之外,还有人提出了投影变换的方法。对于一对(2个)视图,学习两个投影矩阵使两个视图投影后结果互相关性最大,或者以通过最大化所有成对视图的总相关性来获得多个变换。比起直接拼接该方法利用了视图间的相互信息,然而它是无监督的,可能导致获得的转换不利于分类。

监督扩展

针对上述投影无监督的缺点就有人提出了一个改进方向,就是利用LDA(线性判别,可以当做二分类模型,也可以认为是把数据降维到class_num-1维的降维方法)的方法学习线性变换来找到可区分的公共空间。但是,这些基于LDA的方法在某些具有挑战性的方案中无法捕获某些微妙但重要的结构。

深度学习投影变换

研究表明利用更灵活的深度神经网络来学习非线性表示可以实现更高的性能。用深层的神经网络来学习这个投影变换。有深度LDA的,也有共同训练多个网络以让它们相似的,还有借用VAE架构,让视图之间的重构结果相似,以及利用核方法的。
在这里插入图片描述

主要方法和策略

该文章的创新思想为:

  • 输入基于多个神经网络,从不同实体视图提取的各种特征。从不同实体视图提取的各种特征。(个人感觉像风格迁移从不同网络提取中间输出当输入一样)
  • 考虑了由深度共享的互动子网传递的互动信息,其中互动信息是由不同视图之间的属性互相关而产生的,显式地建模视图之间的关系
  • 模型框架为多视点计算多个损失,并以自适应加权方式将其融合,在训练过程中可以学习权重并灵活调整权重

模型结构

先把结构图放出来,按照图分部分说明
在这里插入图片描述

预处理多视图数据

在这里插入图片描述
不同视图的原始数据可能不同维度(尺寸),我们用不同的神经网络提取特征的同时可以把他们放到同一维度。也就是模型结构的开头部分。
在这里插入图片描述

成对交互信息

经过预处理之后,假设每个视图的数据都变成d维了。对于两个不同的视图 v v

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值