迈向人机协作:无监督域适应的探索
1. 多源多目标域适应
先前的相关挑战以及无监督域适应在第一人称动作识别方面的研究表明,模型对动作录制环境存在很强的依赖性,即“环境偏差”问题。这会导致在环境切换时模型性能下降,例如在不同厨房环境中测试模型时,其泛化能力较低。
这种情况不仅存在时间上的偏移,还存在环境上的偏移。因为训练数据来自不同的厨房环境,所以我们将这种挑战设定重新命名为多源多目标无监督域适应。为了解决这个新设定下的问题,我们提出了一种名为多时空对抗对齐(MSTAA)的新颖框架,它结合了多时间对抗对齐(MTAA)和多空间对抗对齐(MSAA)。
- MTAA :采用 2K 个域对抗分支(K 表示厨房数量),在视频和帧级别上对齐每个厨房的源分布和目标分布。
- MSAA :添加一个带有 k 维判别器的对抗分支,以对齐不同厨房的分布,减轻环境偏差问题。
2. 集成无监督域适应损失
为了充分利用流行视频架构的潜力,我们在最终测试中使用了不同的模型。然而,使用标准无监督域适应(UDA)协议单独训练每个骨干网络会导致特征表示独立适应,不同流之间的特征表示会有所不同。这可能会对训练过程和目标数据的性能产生负面影响,因为域适应过程是独立作用于每个架构的,单独训练骨干网络会导致在目标数据上的预测对数不匹配,从而增加模型的不确定性。
为了解决这个问题,我们使用了最小熵共识(MEC)损失来强制不同模型的特征表示之间保持一致性约束。同时,我们重新利用现有的互补熵(CENT)损失,基于在某些情况下回答“这个动作不属于哪些类别?”比“这个动作属于哪个类别?”更容易的假
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



