Perception Encoder:基于视觉 - 语言学习的先进图像与视频理解编码器,多任务表现卓越...

Perception Encoder:基于视觉 - 语言学习的先进图像与视频理解编码器,多任务表现卓越

【免费下载链接】PE-Lang-L14-448 【免费下载链接】PE-Lang-L14-448 项目地址: https://ai.gitcode.com/hf_mirrors/facebook/PE-Lang-L14-448

全文摘要

本文提出了一种先进的图像和视频理解编码器——Perception Encoder(PE),其通过简单的视觉-语言学习进行训练。传统视觉编码器依赖多种针对特定下游任务的预训练目标,而本研究表明,仅通过对比视觉-语言训练就能生成适用于下游任务的强大通用嵌入,前提是这些嵌入位于网络中间层。为此,作者引入语言对齐和空间对齐两种方法,分别用于多模态语言建模和密集预测。结合核心对比检查点,PE系列模型在零样本图像和视频分类与检索、文档/图像/视频问答以及检测、深度估计和跟踪等空间任务上均实现了先进性能。此外,PE不仅在分类和检索任务上超越现有模型,还能通过对齐调优内部特征,将大规模对比预训练的能力转移至下游任务。实验证明,PE在多项任务上优于基于标题生成和空间自监督预训练的模型,其强大的中间层特征可媲美甚至超越顶级预训练模型。为推动进一步研究,作者开源了模型、代码及包含合成和人工标注视频的新数据集。

论文方法

方法描述

  • 模型构成:PE由核心对比性检查点和两种对齐方法组成。核心对比性检查点通过简单的vision-language训练获得强大、通用的特征,这些特征隐藏在中间层。语言对齐用于多模态语言建模,空间对齐用于密集预测。
  • 训练阶段
    • 图像预训练:使用大规模图像文本数据,强化对比性损失,以获取图像的有效特征。
    • 视频增强:基于合成的视频文本数据,利用视频数据引擎进行处理,提升模型对视频的理解能力。
    • 模型规模:涵盖从B到G规模(模型大小),对于小规模模型采用教师模型知识蒸馏进行优化。

方法改进

与传统基于监督学习的图像和视频分类方法相比,PE无需手动标记大量训练数据,而是通过无监督的对比学习自动学习图像和视频之间的关系,提高了模型的泛化能力和鲁棒性,减少了人力和时间成本。此外,语言对齐和空间对齐方法的引入,进一步提升了模型在特定下游任务中的性能。

解决的问题

传统图像和视频分类依赖大量人工标注数据进行监督学习训练,存在人力和时间成本高、难以涵盖所有情况等问题。PE和其相关方法利用大规模无标签数据集和自动化数据生成方法,实现了高效、准确地学习图像和视频之间的关系,解决了传统方法的不足。

论文实验

本文对PE模型进行了多方面的实验验证:

  • PEcore的性能对比实验:在零样本图像分类任务中,PEcoreG在多个数据集上超越现有最佳模型,如在ImageNet分类任务中准确率达86.6%;在细粒度分类任务中平均提升1.0%,在ObjectNet上提升11.8%。在零样本视频分类任务中,PEcoreG显著优于其他视频模型,平均提升3.9%。在视频检索任务中,PEcoreG相比SigLIP2-g-opt提升11.1%。在PVD基准测试中,PEcoreG在文本到视频检索任务上比InternVL高出13.6%,在视频到文本检索任务上高出9.5%。
  • PEcore的零样本分类和检索实验:验证了PEcore对未见过的数据具有很强的泛化能力。
  • PEcore的多模态语言模型实验:将PEcore用于构建新的语言模型,结果显示能有效提高语言模型的性能。
  • PEcore的可视化分析实验:通过对PEcore不同层的分析,揭示其内部特征的学习情况,为进一步优化提供参考。

论文总结

文章优点

  • 提出了由PEcore、PElang和PEspatial等多个基础模型组成的Perception Encoder (PE)框架。
  • 在零样本图像识别、视频理解等多种任务上取得了先进性能。
  • 成功将无监督预训练与有监督微调相结合,通过使用大规模视频数据集和多阶段训练策略,提高了模型在各种下游任务上的泛化能力。
  • 对每个模块都进行了详细介绍和实验验证,便于读者深入了解其设计和效果。

方法创新点

  • 构建了全新的视觉-语言编码器架构,融合多个基础模型优点,并通过融合不同层特征提升性能。
  • 利用大规模视频数据集进行无监督预训练,增强了模型的泛化能力和适应性。
  • 采用多阶段训练策略,结合无监督预训练与有监督微调,进一步提高模型性能。

未来展望

  • 可尝试将PE与基于注意力机制的模型或生成式模型等其他类型模型结合,以提升性能。
  • 探索在自然语言处理或推荐系统等更广泛领域中应用PE。
  • 研究优化PE的训练过程,降低计算成本并提高效率。

【免费下载链接】PE-Lang-L14-448 【免费下载链接】PE-Lang-L14-448 项目地址: https://ai.gitcode.com/hf_mirrors/facebook/PE-Lang-L14-448

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值