75、全球光谱滤波记忆网络用于视频对象分割

最新推荐文章于 2025-08-19 01:22:49 发布

c7d8e9

最新推荐文章于 2025-08-19 01:22:49 发布

阅读量28

点赞数

CC 4.0 BY-SA版权

分类专栏： ECCV 2022：计算机视觉的前沿探索文章标签：视频对象分割全球光谱滤波记忆网络 LFM

本文链接：https://blog.youkuaiyun.com/c7d8e9/article/details/150604564

ECCV 2022：计算机视觉的前沿探索专栏收录该内容

85 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

                    
                        
                    
                     全球光谱滤波记忆网络用于视频对象分割  
 1. 其他模块  
  编码器  ：参照STCN构建了关键编码器和值编码器。对于每一帧，关键特征仅提取一次。若某一帧在视频序列中被存入内存，会将“查询键”复用为“内存键”。对于内存帧，由于内存键和内存值都从同一图像中提取，自然会复用现有的关键特征作为值编码器的输入。具体而言，骨干网络首先从带有分割掩码的图像中提取内存特征，然后将所得特征与关键编码器的最后一层特征拼接。接着，经过两个ResBlocks和一个CBAM块处理，输出最终的内存值特征$V_M$。 
  时空内存读取块  ：查询帧和$T$个内存帧被编码为以下形式：内存键$K_M \in R^{C_k×T×H/16×W/16}$，内存值$V_M \in R^{C_v×T×H/16×W/16}$，查询键$K_Q \in R^{C_k×H/16×W/16}$。在时空内存读取块中，通过测量$K_Q$和$K_M$之间的相似度来计算激活权重。然后，通过加权求和的方式检索$V_M$以获得输出$M$，该操作可总结为： 
 $M_i = \frac{1}{Z} \sum_{j} D(K_{Q_i}, K_{M_j}) V_{M_j}$ 
 其中，$i$和$j$分别是查询和内存位置的索引，$Z = \sum_{j} D(K_{Q_i}, K_{M_j})$是归一化因子，$D$表示相似度度量（在实验中采用L2距离作为度量）。 
  细化模块  ：使用与先前工作相同的细化模块，其作用是处理匹配的值特征，并融合编码器浅层的细节信息。 
 
 2. 实现细节 
                

会员秒杀 ¥9.9 重磅福利

超级会员免费看