【MAE】掩码自回归编码器

掩码自动编码器MAE原理与实现


✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨

🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢,在这里我会分享我的知识和经验。🎥

希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏:传知代码论文复现

欢迎访问我的主页:Srlua小谢 获取更多信息和资源。✨✨🌙🌙

​​

​​

目录

概述

方法

演示效果

核心逻辑

部署方式

参考地址


 本文所有资源均可在该地址处获取。

概述

  掩码自动编码器MAE是一种可扩展的计算机视觉自监督学习器。MAE的基本思路是:屏蔽输入图像的随机补丁,并重建丢失的像素,它基于两个核心设计。

  • 一种非对称编码器-解码器架构,其中编码器只对可见的补丁子集进行操作(没有掩码标记),
  • 一个轻量级解码器,它根据潜在表示和掩码标记重建原始图像。

方法


  MAE的掩码自编码器是一种简单地自编码方法,它在给定原始信号的部分观测值的情况下重建原始信号。和所有的自编码器一样,MAE有一个将观察到的信号映射到潜在表示的编码器,以及一个从潜在表示重建原始信号的解码器。与经典的自编码器不同,MAE采用了一种非对称设计,允许编码器仅对部分观察到的信号进行操作(没有掩码标记),并采用了一个轻量级解码器,该解码器根据潜在表示和掩码标记重建全部信号。

掩码
  与ViT相同,MAE将图像划分为规则的非重叠块,之后,MAE对补丁的子集进行采样,并屏蔽(即移除)剩余的补丁。MAE的采样策略很简单,对补丁随机采样,不进行替换,遵循均匀分布。具有高掩码比(去除的补丁所占的比值)的随机采样在很大程度上消除了冗余,从而产生了一个无法通过从可见的相邻补丁外推来解决的任务,均匀分布防止了潜在的中心偏差(即图像中心附近的掩码补丁越多),最后一个高度稀疏的输入为设计一个有效地编码器创建了机会。

MAE编码器
  MAE的编码器是一个ViT,但只应用与可见的、未屏蔽的补丁。就像在标准的ViT中一样,MAE的编码器通过添加了位置嵌入的线性投影来嵌入补丁,然后通过一系列Transformer块来处理结果集。然而,MAE的编码器只对全集的一小部分(例如25%)进行操作。这使MAE能够仅使用一小部分计算和内存来训练非常大的编码器。

MAE解码器
  MAE解码器的输入是由编码器的可见补丁和掩码令牌组成的完整令牌集。每个掩码标记是一个共享的、学习的向量,指示要预测的丢失补丁的存在。MAE将位置嵌入添加到该全集中的所有令牌中,如果没有这一点,掩码令牌将没有关于其在图像中的位置信息。

  MAE解码器仅在预训练期间用于执行图像重建任务(只有编码器用于产生用于识别的图像表示。)因此,可以以独立于编码器设计的方式灵活地设计解码器架构。

重建目标
  MAE通过预测每个掩码补丁的像素值来重建输入,解码器输出中的每个元素是表示补丁的像素值的矢量。解码器的最后一层是线性投影,其输出通道的数量等于块中像素值的数量。对解码器的输出进行重构以形成重构图像。MAE的损失函数在像素空间中计算重建图像和原始图像之间的均方误差(MSE),与BERT相同,MAE只计算掩码补丁上的损失。
MAE还研究了一种变体,其重建目标是每个被屏蔽补丁的归一化像素。具体来说,MAE计算一个Patch中所有像素的均值和标准差,并使用它们对该patch进行归一化。使用归一化像素作为重建的目标提高了表示质量。

简单地实现<

MAE 的角度来解释,掩码自编码器(Masked Autoencoder, MAE)在计算机视觉和自然语言处理之间的差异有以下几点: 1. 输入数据结构:在计算机视觉中,输入数据通常是图像,是由像素组成的二维或三维数组。而在自然语言处理中,输入数据是文本,通常是一维序列。因此,在构建 MAE 时需要考虑到不同数据结构的特点。 2. 数据表示方式:在计算机视觉中,图像可以通过像素的强度或颜色来表示。通常使用卷积神经网络(Convolutional Neural Network, CNN)来处理图像数据。而在自然语言处理中,文本可以通过词向量或字符向量来表示。通常使用循环神经网络(Recurrent Neural Network, RNN)或者注意力机制(Attention Mechanism)来处理文本数据。 3. 损失函数的选择:在计算机视觉中,常用的损失函数有均方差(Mean Squared Error, MSE)和交叉熵(Cross Entropy)。均方差适合用于回归问题,交叉熵适合用于分类问题。而在自然语言处理中,常用的损失函数有平均绝对误差(Mean Absolute Error, MAE)和交叉熵。平均绝对误差适用于回归问题,交叉熵适用于分类问题。 4. 数据预处理:在计算机视觉中,常用的数据预处理方法包括图像归一化、数据增强等技术。而在自然语言处理中,常用的数据预处理方法包括分词、词干提取、停用词去除等技术。 综上所述,掩码自编码器在计算机视觉和自然语言处理之间的差异主要体现在输入数据结构、数据表示方式、损失函数的选择和数据预处理等方面。这些差异需要根据具体任务和应用场景进行考虑和处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值