选择性位置编码网络(SPE - Net):提升3D应用旋转鲁棒性的新架构
在3D应用中,旋转条件对模型性能有着重要影响。为了应对这一挑战,提出了一种名为SPE - Net的新型深度3D架构,它能通过高效的注意力机制学习和编码训练数据中的各种旋转条件,将这些条件作为有用的先验信息来提高最终的预测性能。
1. 选择性位置编码机制
选择性位置编码机制主要包括以下两个关键公式:
[
[\alpha^{(1)} i, \alpha^{(2)}_i, \alpha^{(3)}_i] = \text{Sigmoid}(\text{FC}(f_i))
]
[
g_i = \text{Max}_j([g^{(1)} {i,j} \odot \alpha^{(1)} i, g^{(2)} {i,j} \odot \alpha^{(2)} i, g^{(3)} {i,j} \odot \alpha^{(3)}_i])
]
其中,$\text{Max}$操作作为最大池化,输出一个向量,该向量收集所有由$j$索引的输入向量的逐元素最大值。符号$\odot$表示两个向量的逐元素乘积,保持向量的维度不变。权重$\alpha^{(1)}_i, \alpha^{(2)}_i, \alpha^{(3)}_i \in \mathbb{R}^{C/3}$是由全连接层(FC)生成的可学习的通道注意力向量,这些权重可以学习与相应的$F1$、$F2$和$F3$函数对齐,从而使训练能够在特定的识别任务下,聚焦于每个输入的相关位置编码函数。所有权重通过Sigmoid函数归一化到$0 \sim 1$之间,这个过程类似
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



