【多模态(影像)自监督学习】Uni4Eye: Unified 2D and 3D Self-supervisedPre-training via Masked Image ModelingTran

本文介绍了一种名为Uni4Eye的自监督学习框架,专门针对眼科图像的2D和3D处理,通过ViT架构和双分支多任务解码器提升表示学习。实验结果显示,Uni4Eye在眼科图像分类任务上优于现有方法,预示着在医疗图像分析领域的重要潜力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Abstract

大规模标记数据集是计算机视觉中监督深度学习成功的关键因素。然而,标注的数据数量有限是非常常见的,特别是在眼科图像分析中,因为手动标注是费时费力的。自监督学习(SSL)方法为更好地利用未标记数据带来了巨大的机会,因为它们不需要大量的注释。为了尽可能多地使用未标记的眼科图像,有必要打破尺寸障碍,同时使用2D和3D图像。在本文中,我们提出了一个通用的自监督Transformer框架,名为Uni4Eye,用于发现眼科图像的固有属性并捕获嵌入的特定领域特征。Uni4Eye可以作为一个全局特征提取器,它建立在一个具有视觉转换(ViT)架构的蒙面图像建模任务的基础上。我们采用统一的Patch Embedding模块来代替ViT中的原始Patch Embedding模块,对二维和三维输入图像进行联合处理。此外,我们设计了一个双分支多任务解码器模块,在输入图像及其梯度图上同时执行两个重建任务,提供判别表示以获得更好的收敛性。我们通过在六个下游眼科图像分类任务上对预训练的Uni4Eye编码器进行微调来评估其性能。通过与其他最先进的SSL预训练方法的比较,Uni4Eye的优势得以成功确立。

关键词:自监督预训练·统一的2D和3D·视觉转换器·眼科疾病分类·多任务

1 Introduction

我们提出了一个简单而有效的框架,可以从2D和3D眼科图像中学习通用表示,称为Uni4Eye。Uni4Eye设计用于执行具有ViT架构的双MIM任务。我们在Uni4Eye中设计了一个双分支可切换的补丁嵌入层来代替原始的补丁嵌入层,使其可以切换到不同的分支来进行2D和3D图像的补丁嵌入。此外,我们在我们的网络中使用双分支解码器,并使用不同的建模/重构任务对其进行训练,从而实现更鲁棒的收敛和更好的表示。此外,我们创建了迄今为止最大的多模态和多维眼科图像数据集,共包含95,978个样本。我们将其命名为mmOphth-v1,我们提出的Uni4Eye在其上进行预训练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值