ICCV 2023计算机视觉技术前沿解析

ICCV 2023顶级论文、总体趋势与个人精选

生成式与判别式学习的连接理解

关键思想:研究发现完全不同的模型通过完全不同目标预训练后,会学习到共享概念(如物体轮廓、部件和颜色)。这些概念在没有监督或手动标注的情况下自然涌现。

研究过程简要描述:

  1. 使用训练好的生成模型生成图像
  2. 将图像输入判别模型并存储所有层的激活图
  3. 计算图像和空间维度上平均的Pearson相关性
  4. 找到两个模型所有激活之间的相互最近邻
  5. 对它们进行聚类

预预训练:结合视觉自监督训练与自然语言监督

动机:掩码自编码器随机掩码75%的图像,并训练模型通过最小化像素重建误差来重建掩码输入图像。

关键思想:MAE在密集视觉任务(如分割)中表现出色,而弱监督学习学习抽象特征并具有显著的零样本性能。研究人员探索了结合两者优势的方法。

MAE预预训练提高了性能。某中心的研究表明,在"MAE预预训练对十亿规模预训练的有效性"工作中,这是可行的。

关键思想:结合MAE自监督(第一阶段→预预训练)和弱监督学习(第二阶段预训练)。这种称为MAE→WSP的组合优于单独使用任一策略。

通过重新聚焦注意力来适应预训练模型

关键思想:给定预训练的ViT骨干网络,研究人员调整其方法的额外线性层,这些线性层在第一次前向传递后充当反馈路径。这样,模型可以将其注意力重新定向到任务相关特征。

推理有四个步骤:

  1. 输入通过前馈Transformer
  2. 输出令牌根据其与任务的相关性由特征选择模块软重加权
  3. 重加权的令牌通过反馈路径发送回去
  4. 我们再次运行前馈传递,但每个注意力层接收额外的自上而下输入

使用离散扩散生成模型进行图像和视频分割

关键思想:提出了一个扩散模型来建模全景分割掩码,具有简单的架构和通用损失函数。

架构分为图像编码器和掩码解码器,因此在测试时的迭代推理仅涉及对解码器的多次传递。

扩散模型经过无条件预训练以产生分割掩码,然后预训练的图像编码器和扩散模型联合训练用于条件分割。

随机分割的扩散模型

研究人员展示了分类扩散模型可用于随机图像分割。

扩散模型:用Transformer替换常用的U-Net

动机:Transformer/ViT拥有最佳实践和扩展性能,并且已被证明在视觉识别方面比传统卷积网络更有效地扩展。

关键思想:通过在潜在扩散模型框架内构建和基准测试扩散Transformer设计空间,可以成功用Transformer替换U-Net骨干网络。

扩散模型作为(软)掩码自编码器

关键思想:论文提出了基于补丁的掩码输入条件扩散模型。

训练过程:模型学习在不同噪声水平下去噪输入,并同时执行下游识别的自监督预训练。

去噪扩散自编码器作为自监督学习器

关键思想:通过无条件图像生成进行预训练,扩散模型已经在其中间层内捕获了线性可分离的表示,无需修改。

最大化利用DINO注意力掩码

关键思想:提出了一个简单框架Cut-and-LEaRn,利用自监督模型在无监督情况下"发现"对象的特性(在其注意力图中)。

归一化割将图像分割问题视为图划分任务。通过表示每个图像作为节点来构建完全连接的无向图。

图像生成学习:我们不能比FID做得更好吗?

关键思想:通过使用CLIP进行文本到文本对齐来测量图像质量(保真度)。

某机构的AI瑰宝:ImageBind和DINOv2

关键思想:模型学习了文本、图像、音频、深度(3D)、热感(红外辐射)和惯性测量单元的单一嵌入或共享表示空间。

关键思想:DINOv2建立在另一个称为iBOT的框架之上,该框架将来自不同增强视图的交叉熵与掩码语言建模相结合。

ICCV2023个人精选前十名

  1. 语言图像预训练的Sigmoid损失:提出了用于图像文本预训练的简单成对sigmoid损失
  2. 具有分布外泛化性的大型视觉语言模型蒸馏:结合对比蒸馏损失与修改版的均方误差
  3. Keep It SimPool:简单的基于注意力的池化机制,替代默认池化
  4. 使用视觉和语言模型的统一视觉关系检测:训练单一视觉关系检测器预测来自多个数据集的标签空间联合
  5. 预训练模型选择对分布外泛化和校准的实证研究:强调预训练模型选择对分布外泛化的重要性
  6. 用于数据集比较的原型发现:通过查看属于最常学习原型的图像来比较数据集
  7. 理解分布外检测的特征范数:提出使用特征范数乘以稀疏度作为通用度量
  8. 自然分布转移的少样本鲁棒性基准测试:自监督ViT通常在ID和OOD转移上比CNN和监督对应物表现更好
  9. 从类似任务中蒸馏以进行有限预算的迁移学习:通过使用任务相似性度量来找到每个预训练视觉基础模型的标量权重
  10. 利用视觉注意力进行分布外检测:新的分布外检测方法,涉及训练卷积自编码器来重建预训练ViT分类器产生的注意力热图

结论思考

扩散模型似乎是非常有前途的候选者,不仅仅限于基于提示生成艺术图片。视觉自监督学习和自然语言监督似乎都很有用,预计会有更多方法结合它们而不是比较它们。泛化似乎仍然是一个未解决的问题,可能需要新的数据集和基准。基础/预训练模型是首选方法,而从零开始的方法似乎较少但很有价值。以最小计算量将预训练模型适应下游任务和多样化分布似乎是另一个关键研究方向。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值