[论文笔记] UniFormer & UniFormerV2

原创

已于 2023-11-20 19:54:56 修改 · 2k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #python #机器学习 #人工智能 #深度学习 #神经网络 #计算机视觉

于 2023-09-29 12:15:03 首次发布

本文是UniFormer和UniFormerV2的论文笔记。UniFormer集成CNN和ViT优点，通过关系聚合器处理时空冗余，在多个视频基准测试中表现良好。UniFormerV2结合预训练ViTs和UniFormer，设计新的聚合器和融合方式，在8个主流视频基准上获SOTA性能。

UniFormer & UniFormerV2 论文笔记

Author: Sijin Yu

1. Information

Uniformer

标题: UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning

arXiv URL: https://arxiv.org/abs/2201.04676

code: https://github.com/Sense-X/UniFormer

期刊/会议: ICLR2022

发表时间: 2022 年 01 月

UniformerV2

标题: UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer

arXiv URL: https://arxiv.org/abs/2211.09552

code: https://github.com/OpenGVLab/UniFormerV2

期刊/会议: ICCV2023

发表时间: 2022 年 11 月

2. Abstract (UniFormer)

在高维的视频中学习丰富的时空特征表示具有挑战性, 因为在视频的每帧之间, 存在大量的局部冗余和复杂的全局冗余.
关于此, 最近的主流框架有: 3D CNNs 和 ViTs.
3D CNNs 可以高效地整合局部内容, 以降低局部冗余, 但是因为其感受野有限, 无法降低全局冗余.
ViTs 可以通过自注意力机制降低全局冗余, 但是因为其盲目地比较所有 tokens, 无法降低局部冗余.
我们提出一种新式框架 Unified transFormer (UniFormer), 集成了 CNN 和 ViT 的优点, 并且在计算消耗和正确率之间取得了很好的平衡.
与传统的 transfomers 不同, 通过在浅层和深层分别学习局部和全局 token affinity [⚠️注: token affinity (词单元亲和力) 度量了两个 token 之间的关联性], 我们的 relation aggregator (关系聚合器) 可以同时处理时空冗余和依赖关系.
我们在主要的 video benchmarks 上做了实验. 在只用 ImageNet-1k 预训练的情况下, UniFormer 在 Kinetics-400 上获得了 82.9% 的准确率, 在 Kinetics-600 上获得了 84.8% 的准确率, 同时需要的 GELOPs 比其它 sota 模型少了 10 倍 [⚠️注: GELOP 指每秒十亿次浮点运算]. UniFormer 在 Something-Something V1 上获得了 60.9% 的正确率, 在 Something-Something V2 上获得了 71.2% 的正确率.

3. Methods (UniFormer)

3.1 Overview

请添加图片描述

由 CNN 层 (灰色梯形) 和 transformer 层 (粉色圆角矩形) 组成.
一个 transformer 层 (Stage) 由若干个 UniFormer 块组成.
一个 UniFormer 块包含三个主要模块:
- DPE: Dynamic Position Embedding, 动态位置嵌入.
- MHRA: Multi-Head Relation Aggregator, 多头关系聚合器.
- FFN: Feed Forward Network, 全连接层.
具体为:
$\textbf{X}=\text{DPE}(\textbf{X}_{in})+\textbf X_{in} \tag{1}$

$\textbf Y = \text{MHRA}(\text{Norm}(\textbf X))+\textbf X \tag{2}$

$\textbf Z = \text{FFN}(\text{Norm}(\textbf Y))+\textbf Y \tag 3$

其中, $\textbf X_{in}\in \mathbb R^{3\times T\times H\times W}$ .

3.2 Dynamic Position Embedding (DPE)

$\text{DPE}(\textbf X_{in})=\text{DWConv}(\textbf X_{in}) \tag 4$

$\text{DWConv}(\cdot)$ 是 0 填充的简单 3D depthwise 卷积.它的输出不改变

3.3 Multi-Head Relation Aggregator (MHRA)

给定一层的输入张量: $\textbf X \in \mathbb R^{C\times T\times H\times W}$ .
将其 reshape 成一个 tokens 的序列: $\textbf X\in\mathbb R^{L\times C}$ . 这里 $L=T\times H\times W$ .
一层 MHRA 有 $N$ 个 Relation Aggregator (RA). (即 $N$ 头). 以 $R_n(\cdot)$ 指代第 $n$ 个.
在一个 $R_n(\cdot)$ 里的行为:
$R_n(\textbf X)=A_n V_n(\textbf X)\in\mathbb R^{L\times \frac C N} \tag 5$
- $V_n(\cdot)$ 是一个全连接层, 输出形状是 $\mathbb R^{L\times\frac CN}$ .
- $A_n\in \mathbb R^{L\times L}$ 表示 token affinity (词单元亲和力). 它在浅层时用于提取局部亲和力, 在深层时用于提取全局亲和力. 即: MHRA 分为 Local MHRA 和 Global MHRA.
  
  对于 Local MHRA:
  - 对于 tokens 序列 $\textbf X\in \mathbb R^{L\times C}$ , 写成 $\textbf X=[\textbf X_1,\cdots,\textbf X_L]^T$ , 其中 $\textbf X_i\in\mathbb R^{1\times C}$ 是一个 token.
  - $A_n\in\mathbb R^{L\times L}$ 是一个矩阵, 其第 $i$ 行、第 $j$ 列的元素 (即 index 为 $(i, j)$ 的元素) 是 tokens 序列 $\textbf X$ 中的 $\textbf X_i$ 和 $\textbf X_j$ 之间的时空亲和力. 这里记作: $A_n^{local}(\textbf X_i,\textbf X_j)$ .
  - 给定一个 token $\textbf X_i$ , 可以确定一个关于它的长方体 $\Omega_i^{t_i\times h_i\times w_i}$ . 这个长方体度量了它计算局部亲和力的感受野. 具体地:
    $t_i=\left\lfloor \frac{i}{H\times W} \right\rfloor \tag 6$