[VL|RIS] CRIS: CLIP-Driven Referring Image Segmentation-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_45863274/article/details/146248943

1. BaseInfo


Title	CRIS: CLIP-Driven Referring Image Segmentation
Adress	https://arxiv.org/pdf/2111.15174v2
Journal/Time	CVPR 2022
Author	悉尼大学，OPPO，北邮，快手
Code	https://github.com/DerrickWang005/CRIS.pytorch

2. Creative Q&A

受到CLIP的启发，设计了一个visual-language decoder以促进两种模态之间的一致性。直接对齐->注意力-> 模态一致性
文本到像素的对比学习。

Related Work ： Vision-Language Pretraining、Contrastive Learning、Referring Image Segmentation

3. Concrete

在这里插入图片描述

3.1. Model

3.1.1. Input

图+文

3.1.2. Backbone

ResNet + Transformer （提取语言特征和全局文本表示）

3.1.3. Neck

Cross-modal Neck.
给定多个视觉特征和全局文本表示 $F_s$ ，可以通过融合 $F_{v4}$ 以及 $F_s$ 得到简单的多模态特征
$F_{m4} = Up(\sigma(F_{v4}W_{v4}) \cdot \sigma(F_{s}W_{s})) \tag{1}$
其中 $U p$ 是上采样两倍，将两个模态的特征变换到同一个特征空间，类似得到 $F_{m3}$ 和 $F_{m2}$ 。
$\begin{align} F_{m3} &= [\sigma(F_{m4}W_{m4}), \sigma(F_{v3}W_{v3})] \\ F_{m2} &= [\sigma(F_{m3}W_{m3}), \sigma(F_{v2}'W_{v2})], F_{v2}' = Avg(F_{v2}) \tag{2} \end{align}$
拼接后的特征通过 $\times 1$ 卷积进行聚合得到 $F_{m}$ ：
$F_{m} = Conv([F_{m2}, F_{m3}, F_{m4}]) \tag{3}$
其中 $F_{m} \in \mathbb{R}^{\frac{H}{8} \times \frac{W}{8} \times C}$ 。最后，作者将2D的空间坐标特征 $F_{coord} \in \mathbb{R}^{\frac{H}{8} \times \frac{W}{8} \times 2}$ 与 $F_{m}$ 拼接并通过 $\times 3$ 卷积进行融合：
$F_{v} = Conv([F_{m}, F_{coord}]) \tag{4}$
其中 $F_{v} \in \mathbb{R}^{\frac{H}{8} \times \frac{W}{8} \times C}$ 。

3.1.4. Decoder

Vision-Language Decoder
vision-language decoder由n个layer组成，每个layer包括一个多头自注意力，一个多头交叉注意力以及前馈网络。
加上了正弦位置编码
$F_{v}' = MHSA(LN(F_{v})) + F_{v} \tag{5}$

$\begin{align} F_{c}' &= MHCA(LN(F_{v}'), F_{t}) + F_{v}' \tag{7}\\ F_{c} &= MLP(LN(F_{c}')) + F_{c}' \end{align}$

3.1.5. Loss

Text-to-Pixel Contrastive Learning
$\begin{align} z_{v} &= F_{c}'W_{v} + b_{v}, &F_{c}' = Up(F_{c}) \\ z_{t} &= F_{s}W_{t} + b_{t} & \tag{8} \end{align}$
其中 $z_{t} \in \mathbb{R}^{D}$ , $z_{v} \in \mathbb{R}^{N \times D}$ , $\frac{H}{4} \times \frac{W}{4}$ 。
目的是让 $z_{t}$ 和与之对应的 $z_{v}$ 尽可能相似：
$L_{con}^{i}(z_{t}, z_{v}^{i}) = \begin{cases} -\log \sigma(z_{t} \cdot z_{v}^{i}), &i \in \mathcal{P} \\ -\log(1 - \sigma(z_{t} \cdot z_{v}^{i})), &i \in \mathcal{N} \end{cases} \tag{9}$
Loss 计算
$L_{con}(z_{t}, z_{v}) = \frac{1}{|\mathcal{P} \cup \mathcal{N}|} \sum_{i \in \mathcal{P} \cup \mathcal{N}} L_{con}^{i}(z_{t}, z_{v}^{i}) \tag{10}$

3.2. Training

名称	值
文本和图像编码器权重	使用CLIP
用于消融研究的图像编码器	ResNet - 50
输入图像调整后的尺寸	416×416
RefCOCO和RefCOCO+输入句子的最大长度	17
G - Ref输入句子的最大长度	22
Transformer Decoder层的头数	8
前馈隐藏层维度	2048
训练轮数	50
优化器	Adam
初始学习率	0.0001
第35轮时学习率调整因子	0.1（即学习率降为原来的0.1）
训练的批量大小	64
推理时预测结果的上采样操作	上采样回原始图像大小
推理时的二值化阈值	0.35
推理时是否有其他后处理操作	无