eye tracking for everyone-内容概要-优快云博客

本文链接：https://blog.youkuaiyun.com/kiki_1994/article/details/81147093

文章介绍了作者如何通过GazeCapture数据集训练iTracker网络，实现移动设备上的实时眼动追踪。数据采集注重多样性，包括头部姿势、距离变化等，以增强模型的泛化能力。作者提出了一种无需特定校准的模型，通过CNN预测相对相机的视点，实验表明模型在不同设备和方向上的表现优秀。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们先来总结一下，作者在采集数据的时候，一再强调数据的可变性，通过改变头部姿势，以及相机和头部的距离，不同的人以及不同的采集地点，使采集的数据具有多样性，同时又通过采集软件的小功能使准确率相对保持较高。

作者通过用自己采集的数据集GazeCapture，训练了自己的iTracker网络，并用dark knowledge的方法在手机上训练了一个小型的实时faster network。

视点估计又被分为基于模型的或者基于外观的，基于模型的方法根据几何模型又被分为基于角膜反射和基于形状的方法，角膜反射的方法通过外部光源检测眼睛特征，基于形状的通过眼睛的方法shape推测出视点方向（例如瞳孔中心或者虹膜边缘）。基于外观的方法相比基于模型的要求更多的特定用户训练数据。然而我们的方法并不需要特定的数据就可以有很好的泛化（calibration is helpful）。

作者开发了在移动设备上收集严冬追踪数据的IOS软件，可以记录并上传数据，名字也叫GazeCapture，有三个特性：（1）可扩展，（2）可靠的，（3）产生大的可变性。其中，可变性：为了学习强大的眼动追踪模型中，数据的显着变化很重要。这种可变性对于实现高精度无校准眼动追踪至关重要。鉴于我们使用众包（crowdsourcing platform），期望拥有姿势，外观和光照的变化很大。其次，要求参与人员不断移动头部和头与手机之间的距离。最后，要求参与人员每次都要改变移动设备的方向60点。可以使用内置传感器检测此更改在设备上。这改变了相对位置相机和屏幕提供进一步的可变性。

为了关联每个手机设备里的AMT任务（手机此次数据的活动），我们提供了每个工作人员他们随后键入了AMT中的唯一代码进入他们的移动应用。点位置都是随机来自13个固定location（loc），并通过固定loc学习calibration的影响。