视频眼动测量中的通用机器学习处理模式
1 引言
计算机视觉算法支持的视频眼动测量引入了一种基于标准相机而非专用设备的非侵入性且经济高效的眼动追踪方法。它能测量眼动的相同组件,借助计算机网络摄像头等标准设备,使眼动测量得到广泛应用。
众多研究人员尝试用不同模型和新方法来估计眼动和注视方向。基于网络的眼动追踪已被证实适用于研究注视、追随眼动和自由观看,尽管与实验室设备相比,其数据准确性稍低、方差稍大,但能重复已知的注视模式。在反射性扫视(RS)方面,网络摄像头系统能计算出足够的参数,可用于临床诊断和识别神经系统疾病,如多发性硬化症。还有研究表明,网络摄像头系统在准确性上可与采样频率为1000Hz的红外眼动仪相媲美。
每个视频眼动测量系统的核心是与眼位估计相关的算法,有多种不同的方法:
- Lin等人尝试基于眼睛的外观特征、傅里叶描述符和支持向量机进行估计,结合位置准则、注视方向检测和光照过滤。
- Xu等人进行了灰度化和直方图均衡化实验,创建了用于线性回归的120维特征集。
近年来,卷积神经网络(CNN)模型成为计算机视觉和视频眼动测量的黄金标准。CNN基于卷积运算,通过采样每个可能的像素排列来寻找特定模式,在视频眼动测量中,该模式包括眼睛组件,如虹膜和最重要的瞳孔。不同研究人员也对CNN进行了各种实验和改进:
- Akinyelu等人基于面部组件提取眼睛的注视特征,并使用39点面部标志组件将眼睛的形状和位置编码到网络中,实验证实CNN比视觉几何组(VGG)神经网络效果更好。
- Meng等人使用CNN和网络摄像头进行基于检测6个眼睛特征的眼动追踪方法实验。
- Gunawardena等人探索了4种轻量级CNN模型
超级会员免费看
订阅专栏 解锁全文
1998

被折叠的 条评论
为什么被折叠?



