论文阅读:Semi-supervised Transfer Learning for Image Rain Removal

2019CVPR半监督去雨方法

已经到2020cvpr了,我一月份的semi论文坑还没填,今天再重读一遍,这个论文有点难懂对于我这种小菜鸡来说啊啊啊啊
努力提升自己,规律每一天。

2019 CVPR : Semi-supervised

这篇文章是2019年CVPR的一篇文章,主要提出了一种基于GMM高斯混合模型的半监督去雨方法,是西安交大Deyu Meng老师团队出的一篇文章。
在这里插入图片描述

本文主要提出了一种半监督的方法,训练数据整合进真实雨图。通过将输入的有雨图像与其期望的网络输出(无雨的清晰图像)之间的残差作为特定的参数化雨条纹分布来实现。网络通过有监督学习的合成的雨来适应真实的无监督学习中的雨的多样性,通过这种处理来减少真实和合成数据间的差异性的问题以及缺少训练样本的问题,提高泛化能力。

作者还指出,由于训练数据和测试数据的分布不一致,该任务可以自然地视为一个典型的领域适应问题。从学习合成去雨(训练、监督)过渡到学习真实去雨(测试、无监督)。该方法能够在训练过程中以数学上合理的方式充分利用无监督的实际雨天图像。具体来说,同时将有监督的合成数据和无监督的真实数据输入到网络中,并且网络参数可以通过有监督输入的网络输出图像的最小二乘残差(对于有监督样本)和它们的ground truth标签的组合进行优化。以及由无监督输入的网络输出图像与其原始雨图像的差值测量的特定参数化雨分布(对于无监督样本)的负对数似然(NLL)损失。

主要创新之处:

1、首次将单张图像去雨SIRR视作一个域适应问题,第一个提出使用半监督方法去雨。
2、同时利用有监督和无监督知识进行图像去雨。有监督部分,直接采用网络输出图像和干净无雨图像之间的最小二乘损失;无监督部分,则通过在基于残差的域理解参数化分布上施加一个似然项来表示期望输出和有雨图像之间

### STiL 方法概述 Semi-supervised Tabular-Image Learning (STiL) 是一种用于处理多模态数据的半监督学习方法[^1]。该方法旨在通过结合表格数据和图像数据来提升模型性能,特别是在标注数据有限的情况下。STiL 的核心目标是从不同模态的数据中提取任务相关信息并加以融合。 #### 多模态分类中的任务相关信息探索 在多模态分类场景下,任务相关信息通常分布在不同的数据源之间。STiL 方法通过设计特定机制,在训练过程中逐步识别哪些特征对于当前任务最为重要[^2]。具体而言: - **跨模态关联建模**:STiL 利用注意力机制捕获表格数据与图像数据之间的潜在关系。这种机制能够动态调整各模态的重要性权重,从而聚焦于最相关的部分[^3]。 - **自监督信号增强**:为了充分利用未标记样本的信息,STiL 引入了自监督学习策略。这些策略可以通过预测旋转角度、对比学习等方式生成额外的学习信号,进一步优化模型参数[^4]。 - **联合表示空间构建**:通过对齐两种模态的嵌入向量,STiL 创建了一个统一的任务相关表示空间。这使得即使某些模态缺失或质量较差时,模型仍能保持较高的鲁棒性和准确性[^5]。 以下是实现上述功能的一个简化代码框架: ```python import torch.nn as nn class STILModel(nn.Module): def __init__(self, tabular_dim, image_channels): super(STILModel, self).__init__() # 图像编码器初始化 self.image_encoder = ImageEncoder(image_channels) # 表格数据编码器初始化 self.tabular_encoder = TabularEncoder(tabular_dim) # 跨模态注意层 self.cross_modal_attention = CrossModalAttention() # 输出层定义 self.classifier = Classifier() def forward(self, table_data, image_data): img_features = self.image_encoder(image_data) tab_features = self.tabular_encoder(table_data) combined_features = self.cross_modal_attention(img_features, tab_features) output = self.classifier(combined_features) return output ``` 此代码展示了如何分别对图像和表格数据进行编码,并利用 `CrossModalAttention` 层完成两者间的交互操作[^6]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值