自闭症幼儿的粗到细人类视觉焦点估计及非合作目标运动参数与状态估计
人类视觉焦点估计相关内容
人类视觉焦点估计是一个重要的研究领域,在不同数据集下有多种方法被提出。
一些现有方法各有特点:
- [1]指出后处理模块不可微,用积分回归替代了 argmax 操作,但结果仍有提升空间。
- 由于注视行为本质上是时间序列信号,时间建模对人类视觉焦点估计有益。[3]提出使用卷积长短时记忆网络(convLSTM)对时间注视表示进行编码,以提高 VideoAttentionTarget 数据集中的估计准确性,其空间部分还在 Gazefollow 数据集中将检测准确性提升到了接近人类水平,此外还基于该模型进行了幼儿注视转移事件检索和 VideoCoAtt 数据集中共享注意力检测等实验,证明了该方法的潜力。
- [19]提出基于多流卷积神经网络(CNN)的群体注视估计方法,先检测图像中的所有面部,再预测每个人的注视显著性图,将叠加的热图输入整体分支,每个热图输入聚合分支,最终输出是两个分支输出的融合。
- [7]基于 2D 图像中预测的注视方向生成多尺度注视方向场图,使用编码器 - 解码器模块对预测热图进行回归,输入为多个方向场图和原始图像的拼接。
- [9]提出顶视注视显著性表示,用于检测 3D 空间中超出相机视野的物体。
- [4]使用 MobileNetV2 进行实时推理,且准确性损失较小。
- [18]直接从原始图像中学习视线(从眼睛到注视目标的连线),通过将学习到的视线转换到极坐标域,对学习到的热图进行重新加权以消除数据集偏差。
下面介绍一种粗到细的人类视觉焦点估计方法,该方法由五个模块组成:
1.
超级会员免费看
订阅专栏 解锁全文
6434

被折叠的 条评论
为什么被折叠?



