全球光谱滤波记忆网络用于视频对象分割
1. 其他模块
- 编码器 :参照STCN构建了关键编码器和值编码器。对于每一帧,关键特征仅提取一次。若某一帧在视频序列中被存入内存,会将“查询键”复用为“内存键”。对于内存帧,由于内存键和内存值都从同一图像中提取,自然会复用现有的关键特征作为值编码器的输入。具体而言,骨干网络首先从带有分割掩码的图像中提取内存特征,然后将所得特征与关键编码器的最后一层特征拼接。接着,经过两个ResBlocks和一个CBAM块处理,输出最终的内存值特征$V_M$。
- 时空内存读取块 :查询帧和$T$个内存帧被编码为以下形式:内存键$K_M \in R^{C_k×T×H/16×W/16}$,内存值$V_M \in R^{C_v×T×H/16×W/16}$,查询键$K_Q \in R^{C_k×H/16×W/16}$。在时空内存读取块中,通过测量$K_Q$和$K_M$之间的相似度来计算激活权重。然后,通过加权求和的方式检索$V_M$以获得输出$M$,该操作可总结为:
$M_i = \frac{1}{Z} \sum_{j} D(K_{Q_i}, K_{M_j}) V_{M_j}$
其中,$i$和$j$分别是查询和内存位置的索引,$Z = \sum_{j} D(K_{Q_i}, K_{M_j})$是归一化因子,$D$表示相似度度量(在实验中采用L2距离作为度量)。 - 细化模块 :使用与先前工作相同的细化模块,其作用是处理匹配的值特征,并融合编码器浅层的细节信息。
超级会员免费看
订阅专栏 解锁全文
4123

被折叠的 条评论
为什么被折叠?



