AMiner推荐论文:Masked Autoencoders Are Scalable Vision Learners

该论文提出了一种新的图像预训练方法,通过将图像划分为非重叠区块并随机遮蔽大部分区块,仅使用少量计算资源训练大型编码器。解码器接收可见区块和掩蔽区块的信息,预测被遮蔽区块的像素值,实现图像重建。这种方法允许使用轻量级解码器,减少了预训练时间,且在高比例遮蔽时自监督任务表现优异。

论文链接: https://www.aminer.cn/pub/618ddb455244ab9dcbda8f5f?f=cs
作者先将图像均匀划分为非重叠区块,然后随机对区块进行采样。
以遮蔽比例75%为例,它先在输入图像中掩蔽75%的随机区块,编码器只在可见的25%区块子集上运行,这样就可以只用非常少的计算和显存,来训练非常大的编码器。
然后解码器将可见的token和掩码token组合,并向所有token中添加位置嵌入,通过预测每个掩蔽区块的像素值来重建图像信号。
这样一来,在预训练时解码器可以独立于编码器,从而可以用非常轻量级解码器实验,大量减少预训练时间。
另一个特点则是对输入图像的高比例进行遮蔽时,自监督任务效果非常好。
AMiner,让AI帮你理解科学!https://www.aminer.cn
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值