基于眼动与头部追踪的驾驶员活动识别

最新推荐文章于 2025-11-23 20:38:12 发布

原创最新推荐文章于 2025-11-23 20:38:12 发布 · 1k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#驾驶员活动识别 #眼动追踪 #头部追踪 #自动驾驶 #特征提取

驾驶员活动识别在有条件自动驾驶背景下的研究

摘要

本文提出了一种针对驾驶员活动自动识别的新方法，这对于确定条件自动驾驶场景中的接管准备状态至关重要。因此，本研究引入了一种基于头部和眼动追踪数据的架构，并分析了多个特征。所提出的方法在驾驶模拟器研究期间采集的数据上进行了评估，该研究包含73名受试者在自动驾驶环境中执行不同次要任务时的行为数据。所提出的架构在车载驾驶员活动识别方面表现出良好的效果。此外，由于引入了专为自动驾驶环境设计的新特征，分类性能得到了显著提升。

引言

检测驾驶员当前执行的任务对于智能车辆领域的许多不同应用至关重要，包括自动驾驶场景。自动化驾驶员活动识别的典型应用领域是驾驶风险检测，例如当驾驶员注意力不集中[1]时。自动驾驶领域的最新发展带来了新的挑战，也因此催生了驾驶员活动识别的新应用。驾驶员接管准备状态的分类便是其中之一。在条件自动驾驶过程中，车辆会在特定时间段[2]内接管驾驶任务。因此，驾驶员将全部责任交由车辆及其自动驾驶功能，从而能够在车内执行次要任务或放松休息。然而，某些情况下自动驾驶系统将达到其能力极限，导致车辆无法再安全地被控制。典型示例包括车道标记丢失或到达适用道路的终点。在此类情况下，车辆需要发出接管请求，将控制权以及相应的责任交还给驾驶员。完成接管过程的时间非常有限。此时便产生了一个新问题：驾驶员在该特定时刻是否具备接管能力？

要回答这个问题，需要考虑许多不同的因素，例如交通场景或当前的天气条件。另一个决定接管准备状态的关键因素是驾驶员的注意力分散程度，而这又受到驾驶员正在进行的次要任务的影响。与自动驾驶相关的可能次要任务[3],[4]，根据其各自分心类型（如听觉、视觉、手动或它们的组合）而表现出不同的复杂性。据推测，随着接近风险的增加，在执行次要任务时，非自动驾驶情况下的实际碰撞事故[5]，以及接管质量会下降，尤其是对于复杂性增加的任务。

如果能够在驾驶员执行次要任务时自动检测到这些行为，则可以推断出驾驶员的注意力分散水平。因此，可以在接管情境中以最佳方式为驾驶员提供支持。当前用于驾驶员活动识别的框架通常侧重于身体姿态和视线方向估计，以确定驾驶员当前交互所在的区域。然而，在本文中，我们将研究一种基于眼动和头部运动模式的驾驶员活动识别架构，该架构应用于有条件自动驾驶场景，且不依赖于易出错的视线方向估计。

II. 相关工作

检测驾驶员当前的次要任务是人类活动识别的各种应用之一，例如在智能安防监控、健康监测、高效人机界面等领域。此外，人类活动识别也是计算机视觉领域研究的重点[6]。同时，已有一些研究探讨了车载摄像头系统在识别车内不同类型活动中的应用，例如方向盘区域附近的活动。通常，会考虑不同身体部位的运动模式，如手、腿、躯干和头部的运动，以及身体姿势，以推断驾驶员行为。

所检测到的行为不一定是与车辆或其周围环境的具体明确交互，例如换挡，而可以描述驾驶员当前关注的兴趣区域（AOI）。这些兴趣区域（AOI）汇总了在指定区域内执行的所有活动。例如，在[7]中，驾驶员任务与三个兴趣区域（AOI）相关联，即方向盘区域交互、换挡区域活动和仪表盘区域活动。为了可靠地区分上述兴趣区域（AOI），作者将手部动作识别[8]与估计的视线方向相结合。另一种更通用的方法在[9]中被提出，该方法采用语义驾驶员行为分析，且可轻松扩展至多种传感器类型。

除了基于计算机视觉方法检测身体部位运动、姿势和视线方向外，可穿戴传感器还能提供额外且高度准确的数据[10]。为了检测分心驾驶行为，在[11]中使用了驾驶员腿部和头部的可穿戴传感器。研究指出使用侵入式头部传感器可以可靠地检测到使用手机这一分心活动。近年来，利用侵入式传感器系统（如眼电图（EOG）或头戴式眼动仪）进行的眼动分析在人类活动识别领域引起了越来越多的关注。Bulling等人[12]首次将眼动视为活动识别的潜在信息来源。为了对浏览网页或阅读文本等不同办公室活动进行分类，[12]通过EOG记录眼动，检测基本的眼动模式，即扫视、注视和眨眼，并基于这些模式提取了多个特征。作者指出，眼动分析适用于活动识别。基于这些发现，Banerjee等人[13]分析了时域、频域以及时频相关的眼动信号特征，用于识别八种不同的任务。这些特征在250Hz的测量频率下表现出良好的效果。

除了上述基于EOG的研究外，眼动追踪系统信号质量的不断提高也促进了眼动记录的发展。头戴式眼动仪由于具备眼动相机和场景相机[14]，实现了眼动分析与视觉特征相结合的新方法。在[15]中，使用Google Glass平台作为传感器来测量眨眼和头部运动模式，验证了这些标准传感器结合仅四个特征即可实现人类活动识别的潜力。除了观看电影和阅读等典型的视觉任务外，[15]中的分析活动还包括一项具有挑战性的认知任务，即解决数学问题，以及一项体力活动，即锯切。根据[15]，该认知任务由于具有双重特性——书写答案和查看任务表——而难以分类。

我们的主要贡献有两方面。据作者所知，这是首次在有条件自动驾驶背景下针对特定驾驶员活动进行识别的研究，超越了当前对驾驶员交互的兴趣区域检测。此外，我们对从眼动和头部追踪信号中提取的多种特征进行了全面的分析与评估，探讨了它们在自动化次要任务识别中的适用性。

III. 提出的方法

A. 活动识别架构

该方法用于检测驾驶员活动的基础是基于先前提出的框架[16]，如图1所示。该架构可分为两条路径，在分类步骤中进行合并：一条用于眼动追踪，源自文献[12]中提出的框架；另一条为新型的头部追踪路径。下文将描述原始眼动追踪路径的修改以及新型头部追踪路径，并进一步概述特征提取步骤的不同变体，以便后续比较。

示意图0

从图1中以浅灰色阴影标示的眼动追踪路径开始，使用移动或车载眼动追踪系统来记录眼动，而不是像[12]中那样使用EOG系统。由于基于视频的眼动仪通常频率显著较低，并存在典型的技术挑战，例如变化光照条件、瞳孔的个体形状等因素会导致信号质量降低。本文采用了一种如[17]所述的贝叶斯在线混合模型来区分扫视和注视。该算法在不同情况下检测眼动方面具有显著优势。由于该混合模型的两个高斯分布能够持续进行在线自适应，因此算法可以适应高度变化的个体内部和个体间的眼动模式。对于相机信号，眨眼通常不会被显式检测，而是通过数据建模得出[18]。本研究中的实际眨眼检测包含两个步骤。第一步，删除信号质量较低的部分：使用大小为5秒的移动窗口在整个信号上滑动，并计算无效值的数量。如果无效数据的比例超过30%，则该信号部分将不参与下一步分析。这样做的目的是减少在信号质量不可接受区域中的误检数量。第二步，对所有剩余的、眼动仪未能检测到瞳孔的序列，若满足以下阈值条件，则将其标记为特定持续时间的眨眼 t。

|thmin − tol| ≤ t ≤ |thmax − tol|. (1)

式(1)中的阈值选择为thmin= 0.1秒和 thmax= 0.4秒，依据是[19]，代表一次眨眼的平均最小和最大持续时间。容差变量的产生是因为无效值对应事件的持续时间通常与平均眨眼持续时间不一致。原因是，在闭眼阶段眼睑已经开始向下移动，或在睁眼阶段向上移动时，只要瞳孔仍然可见，眼动仪系统就仍能检测到瞳孔。因此，容差值需根据眼动仪的采样率 f进行选择，并设定为 tol= 1/f。

结合眼动编码与词库分析，将每次扫视根据其幅度和方向映射为一个字符。通过使用指定大小的移动窗口 l在字符序列上滑动，检测并保存所有存在的字符组合（称为词）到词库 Wbl 中，如[12]所示。在生成多种特征后（见第三节-B），采用FCBF（基于快速相关性的滤波）算法[20]进行特征选择。FCBF根据对称不确定性symmetrical uncertainty的相关性度量，通过冗余和相关性分析来选择特征子集。

SU(X, Y)= 2( IG(X|Y) / (H(X)+ H(Y))) (2)

其中 IG称为相对于特征对(X, Y)的信息增益， H是熵。该方法的优点在于无需预先确定子集的大小，而是可以定义一个相关性阈值 γ，以判断任意特征与类别 C之间的相关性是否足够高。在本研究中， γ被设定为 γ= 0.1。

图1中以深灰色阴影标示的头部追踪路径基于测量得到的头部位置和头部旋转。校准步骤用于确定驾驶员直视前方道路时的头部朝向，这对于后续头部特征的计算以及不同受试者之间的可比性是必要的。至于眼动追踪路径，其特征提取步骤在此处将跳过，并在第三节-B中详细说明。

最后，选定的眼睛和头部特征被合并，并用于分类模型的训练和测试。采用支持向量机（SVM）作为分类器，因为此类分类器由于使用正则化原则[21]，在应对过拟合问题方面表现出较强的鲁棒性。此外，应用了径向基函数（RBF）核，原因是之前支持向量机（SVM）与径向基函数（RBF）核结合已取得较好的分类结果[12],[13]。

B. 特征提取

图1中头部和眼动追踪路径的两个特征提取步骤是后续分析的核心。本文针对眼动追踪路径的特征提取步骤，比较了两种不同方案在自动化次要任务检测中的适用性。第一种方案包含92个基于眼部的特征，均来自第二节中提到的文献。具体而言，其中90个特征根据[12]的建议进行选取。这些特征包含均值、方差、速率和最大值，可分为四类：62个与扫视相关的特征，5个由注视衍生的特征，3个与眨眼相关的特征，以及20个词表特征。该方案中剩余的两个眼部特征描述了眨眼频率直方图质心的x轴和y轴坐标，其中x轴表示实际的眨眼频率，y轴表示该特定频率出现的次数。眨眼频率通过指定窗口和步长的滑动窗口计算得出[15]。

这些特征已成功应用于实验室环境中的人类活动识别。然而，与静态实验室环境相比，条件自动驾驶场景可被视为更加动态且充满干扰。因此，预计受试者会出现差异行为。在自动驾驶情境下进行次要任务时的一种典型视觉行为是：视线从次要任务转向道路[22]，然后再将视线转回次要任务。导致这种行为的原因可能是其他交通参与者吸引了驾驶员注意力，或对次要任务的注意力逐渐减弱。本研究将此类行为分别称为控制凝视行为和控制凝视。图2展示了此类视觉行为的一个示例，显示了朝向道路的扫视（左上簇）以及朝向次要任务的扫视（右下簇），以中心区域为例进行说明。

示意图1

这种行为使检测驾驶员行为的目标变得复杂，因为驾驶员经常中断当前的次要任务，导致与该任务无关的眼动和头部运动。

因此，本研究考察了为分析受试者在车辆中行为而引入的新型眼睛和头部特征。所有这些新引入的特征均在图3的树状结构中展示，并采用[12]所引入的相应符号表示。每个叶节点对应一个实际特征，而父节点则显示了与不同头部和眼部模式之间的依赖关系。图3a)概述了从头部追踪信号中提取的20个特征。均值和方差特征分别针对三维空间中的每个位置和旋转进行计算。为了了解驾驶员头部朝向的位置及持续时间，将视野划分为八个象限，如图4所示。内部四个象限的设定是由于正前方的注视方向和头部方向无法被视为一个精确的点，而只能视为狭窄视野。内侧象限的大小基于先前对头部方向的分析，在x方向设为 10°，在y方向设为 5°。我们引入了32个新型基于眼部的特征，如图3b)所列，其中20个特征基于驾驶员扫视在外象限 Q1至 Q4的分布，其余12个特征可视为对上述92个特征的补充。然而，与文献中已知特征不同的是，我们在计算时使用幅度的绝对值，由符号mAbs表示，之后

示意图2

示意图3
计算平均值。如果不使用绝对值，如图2所示的相反的扫视簇会相互抵消，导致信息丢失。两个词表特征，即 W-rat1和W-rat2，通过计算向右注视与向左注视次数的比率，旨在改进涉及阅读的次要任务分类。在阅读情况下，该比率应倾向于向右注视，因为阅读通常包含许多朝阅读方向的小幅注视。因此，所有从具有正水平幅度或负水平幅度的扫视映射得到的词分别被计为向右或向左注视。该特征针对词表大小 l= 1和 l= 2进行了计算。其余特征，即均值、方差以及不同象限中包含的扫视百分比，反映了在 Q1到 Q4之间的扫视分布情况。因此，这些特征试图确定控制凝视的聚类是否存在。内侧象限的大小基于类似图2的散点图先前分析结果，在x方向设为 75 px，y方向设为 25 px。

IV. 结果

A. 实验

为了评估不同头部和眼部特征组合的性能，在梅赛德斯-奔驰驾驶模拟器[23]中进行了一项有条件自动驾驶模拟器研究，相关数据在该研究期间被采集。以下介绍与我们研究问题相关的部分。受试者在梅赛德斯-奔驰W212 E级轿车的精细驾驶室内，以 120 km/h的速度在典型的高速公路路线路上进行约35分钟的有条件自动驾驶。中央控制台前方安装有一个触摸屏，供驾驶员执行次要任务。次要任务集合包括观看视频、阅读新闻、撰写电子邮件以及处于空闲状态等。共有85名受试者参与了本研究，其中 74名受试者组成实验组，执行次要任务；另外11名受试者组成对照组，仅执行空闲任务。引入第二组受试者有助于在自动驾驶情境下考察未参与次要任务时驾驶员的视觉行为。受试者的眼动通过移动式Dikablis眼动仪[24]记录，采样率为25Hz；头部运动则通过laserBIRD设备[25]（一种高精度的光学头戴式激光扫描仪）记录，采样率为 50Hz。眼动与头部追踪系统如图5 b) 和 f) 所示。驾驶室内安装了四台摄像机，从不同角度对驾驶员面部、脚部空间以及方向盘区域和触摸屏（见图5）。实验期间，用于监控各种车辆和路线信息的界面被显示出来，并添加到图5d)所示的录制视频数据中。每次实验驾驶开始时，都会进行一次短暂的校准。在驾驶室前方的屏幕上会显示一个标记，要求受试者注视该标记，同时尽量保持头部正直约5秒。记录的头部位置和旋转数据被用于第三节中描述的校准步骤。

示意图4

B. 评估

在评估过程中，由于实验组中有12名受试者的头部和/或眼动追踪系统信号缺失，因此仅使用了原先85名受试者中73名的数据。采用了一对多多类SVM分类方法，并结合留一法交叉验证进行评估，即模型使用72名受试者的数据样本进行训练，用剩余1名受试者的样本进行测试，并对所有可能的组合重复此过程。选择该方法是为了尽可能提供更多的训练样本，以覆盖尽可能多样的驾驶员行为。此外，这种方法确保了评估是驾驶员独立的，即模型在测试阶段从未见过用于测试的驾驶员的任何数据样本。由于不同受试者执行的次要任务数量不同，且某些任务所需的持续时间因人而异（例如受阅读速度影响），因此不同任务对应的数据样本数量并不相等。因此，为避免使用不平衡数据集训练模型，每个任务仅选取相同数量的随机选择的数据样本参与训练，具体数量为所有次要任务中数据样本的最少样本数。

C. 实验结果

第一步是仅应用已知的相关研究中的眼部特征，以确定这些特征在自动驾驶背景下的表现。这些特征是针对持续时间为90sec的非重叠序列计算的。平均使用每个次要任务一小时的记录的数据来训练模型。图6显示了分类结果的混淆矩阵。显然，在模拟驾驶场景中，所使用的特征仍然能够区分不同的视觉任务和空闲任务。

示意图5

然而，该模型的召回率为0.57%，精确率为0.5%，性能明显低于其原本设计所针对的已知实验室环境。图8左侧的两个直方图显示了由FCBF选出的特征。上方的直方图中，我们看到按选择次数排序的七个最常被选中的特征，以灰色阴影表示。这些特征中的每一项至少在75%的受试者中被选中。其下方的累积直方图显示了被选特征的数量。所有73名受试者中平均被选特征数量用一条垂直虚线标记在26个特征处。

为了改进该分类结果，下一步重点是基于第三节-B中引入的20个新的头部特征来提升对空闲任务的检测。进行了三次二分类实验，分别是空闲任务与视频、阅读或书写任务的区分，以分析头部特征在将空闲任务与其余三种视觉任务分离方面的潜力。在这三种情况中，最相关且被选中频率最高的两个特征均为RP-q4dur和RP-q1dur。头部方向停留在右侧两个外象限之一的持续时间似乎已足以实现可靠的分类。其他所有特征似乎均无显著相关性。基于这些发现，使用仅包含RP-q4dur和RP-q1dur这两个特征重复了相同的三次分类实验。召回率达到0.93%且三个分类结果的平均精确率值为0.9%，证实了识别出两个特征，能够区分空闲任务与其余次要任务。

最终分析将新提出的眼部特征与先验提取的两个头部特征以及从文献中获取的92个眼部特征相结合。与第一个混淆矩阵相比，分类结果显著改善，如图7所示。与仅使用92个眼部特征的分类相比，召回率和精确率均提高了20%，分别达到 0.76%和0.7%。其中，空闲任务的分类效果最佳，真阳性值达到94%；而邮件任务的分类效果最差，在65%的情况下可被检测到。检测邮件任务的困难在于该任务具有双重特性：它既包含驾驶员阅读的阶段，也包含在书写并聚焦于键盘时出现的类似于电影片段的无结构眼动阶段。阅读任务的高分类率未进一步提升，因为新特征似乎并未提供检测该任务的额外信息。此外，图8上方的直方图显示，在结合所有眼部特征的情况下，有一组较小的特征被超过75%的受试者所使用。本分析中表现最好的两个特征是 S-Q4meanVer和S-Q2varHor，它们均来自与驾驶员控制凝视行为所产生的扫视聚类直接相关的两个象限。从下方的直方图可以看出，每位受试者所选特征的总数平均减少了7个特征，降至19个特征。因此，这些特征似乎包含了最相关的信息，即使特征数量减少，也能显著改善分类结果。

示意图6

示意图7

如表I所示，新特征使分类准确率（ACC）的均值从53%显著提高到77%。

表I. 分类结果摘要。

Task	92个基于眼部的特征 ACC	92个基于眼部的特征精确率	92个基于眼部的特征召回率	所有特征 ACC	所有特征精确率	所有特征召回率
idle	0.47	0.55	0.55	0.85	0.94	0.94
视频	0.72	0.45	0.72	0.87	0.72	0.72
阅读	0.6	0.71	0.6	0.72	0.74	0.74
mail	0.2	0.58	0.2	0.35	0.65	0.65
Ø	0.53	0.5	0.57	0.77	0.7	0.76

V. 结论

提出了一种基于眼动和头部追踪数据的驾驶员行为自动识别新方法。尽管采用了新框架，但仍引入了一套新型基于眼动和头部的特征，用于次要任务的自动分类，特别针对自动驾驶场景而设计。该次要任务识别架构在来自梅赛德斯-奔驰移动式驾驶模拟器的大规模模拟器研究中获取的包含73名受试者的大型数据集上进行了评估。新特征显著提升了分类结果，使分类准确率（ACC）从0.53提高到0.77。其中，与所提出的控制凝视行为直接相关的眼部特征以及反映驾驶员头部方向的两个头部特征尤为有效。由于使用了头部特征，空闲任务获得了较高的召回率，这意味着即使使用第一代接近量产的驾驶员监控系统，也能有效区分驾驶员处于空闲还是忙碌状态。未来工作将涉及将该新型架构应用于更短序列的次要任务，并进一步探究该方法在其他任务（如涉及手持设备的任务）中的潜力。