基于无监督域适应的注视估计与自闭症儿童模仿能力评估
1. 无监督域适应的注视估计方法
1.1 任务定义
在进行注视估计的域适应之前,需要明确问题场景。定义源域数据为 (D_s = {(x_s^i, y_s^i)| {i = 1}^{N_s}}),其中 (x_s^i) 是第 (i) 个训练图像,(y_s^i) 是对应的由俯仰角和偏航角组成的注视标签,(N_s) 是图像数量。目标域数据没有真实的注视标签,记为 (D_t = {(x_t^i)| {i = 1}^{N_t}}),其中 (N_t) 是图像数量,(x_t^i) 是第 (i) 个图像。
基线注视估计器由特征提取器 (G_f = (x; \theta_f)) 和注视估计器 (G_y = (f; \theta_y)) 组成。(x) 是无监督域适应(UDA)网络的输入,(f) 是学习到的特征表示,(y) 是注视预测,(p) 是域分类结果。(D_p = (f; \theta_p)) 是判别器。
1.2 对抗学习
为实现无监督域适应,采用 DANN 框架。特征提取器 (G_f = (x; \theta_f)) 从源域输入 (x_s) 和目标域输入 (x_t) 中学习特征表示 (f_s) 和 (f_t)。然后将特征表示分别输入到注视估计器 (G_y = (f; \theta_y)) 和域判别器 (D_p = (f; \theta_p)) 中,以预测由俯仰角和偏航角组成的注视向量以及判断输入是否来自源域的概率。
由于目标域图像缺乏注视标签,为确保模型的预测能力,使用 L1 损失来监督源域图像对应的输出:
[L_1 = \frac{1}{N_s
超级会员免费看
订阅专栏 解锁全文

41

被折叠的 条评论
为什么被折叠?



