用于视频对象分割的质量感知动态内存学习
1 先验增强策略
在设计内存库时,除了考虑时间一致性,还利用前一相邻帧提供的先验信息来增强时间信息。采用了与SCM类似的模块结构,将前一相邻帧的先验信息引入。不过,与SCM在解码器中引入空间约束不同,在查询编码过程中利用先验信息,这样能更好地学习目标对象的外观特征,避免过度依赖先验信息。
具体操作步骤如下:
1. 在查询编码过程中,将前一相邻帧的分割掩码$M_{t - 1} \in R^{1×H×W}$进行下采样,并与查询的嵌入$f_t \in R^{C×H/16×W/16}$进行拼接。
2. 拼接后的特征经过卷积和非线性函数,以融合通道之间的信息,生成先验特征图$f_p \in R^{1×H/16×W/16}$。
3. 最后,将$f_p$和$f_t$进行逐元素相乘,得到增强后的特征$f_e \in R^{C×H/16×W/16}$。该过程可以用以下公式表示:
- $f_e = Conv(f_t \oplus M_{t - 1}) \otimes f_t$
实验发现,提供弱先验比强先验更好。主要原因有两个:一是先验信息可能存在噪声,提供强先验可能导致误差积累;二是提供强先验会使模型过度依赖它,削弱其特征提取和对象识别能力。
2 内存读取和解码器
2.1 内存读取
在时空内存读取块中,首先通过测量查询键$K_Q$和内存键$K_M$之间的相似度来计算软权重。然后,使用软权重进行加权求和来检索内存值$V_M$,并将其与查询值$V_Q$拼接得到输出$y$。该操作可总结为:
- $y_i = V_{Q_i} \oplus \frac{
超级会员免费看
订阅专栏 解锁全文
1188

被折叠的 条评论
为什么被折叠?



