一、摘要
实际场景中各种遮挡增加了表情识别难度。为此,提出一种滑块局部加权卷积注意力和全局注意力 池化的视觉 Transformer
结合的方法来解决遮挡问题。
利用主干网络提取表情特征图,将表情特征图裁剪成 多个区域块,利用局部 Patch 注意力单元通过自适应计算局部特征的注意力权重来感知被遮挡的区域,提取 表情局部特征。同时,表情特征图转换成 Patch
块,通过
Patch
级和
Token
级注意力池化的视觉
Transformer
, 从全局角度捕获 Patch 块之间的相互作用和相关性。引导模型强调最具区别性的特征,而忽略遮挡减少不相关特征的影响。
主要贡献总结如下
:

最低0.47元/天 解锁文章
834

被折叠的 条评论
为什么被折叠?



