舱内应用场景中的人工智能方法:综述
摘要
随着对自动驾驶兴趣的增加,人们正努力满足车辆高级别自动化的要求。在此背景下,车厢内的功能在确保驾驶员和乘客安全舒适的旅程中发挥着关键作用。同时,人工智能(AI)领域的最新进展使得一系列新的应用和辅助系统能够解决车厢内的自动化问题。本文全面综述了利用人工智能方法应用于驾驶舱内用例的现有研究工作,特别关注与驾驶安全和驾驶舒适性相关的应用场景。调查结果表明,人工智能技术在应对自动驾驶背景下的座舱内任务方面具有广阔的应用前景。
Autonomous 驾驶是过去十年中最受关注的话题之一
作为一种新型交通技术,自动驾驶车辆旨在多个方面超越人类驾驶员,尤其是安全性。然而,要实现完全自动驾驶,需要逐步达到不同的自动驾驶等级。根据国际汽车工程师学会(SAE)国际关于道路机动车辆自动驾驶系统相关术语的分类和定义[1],提出了通往完全自动驾驶的六个不同级别,其中0级代表“完全手动”,5级代表“完全自动驾驶”。处于0级到5级之间的所有车辆均被视为半自动驾驶汽车。
当前的研究和产品开发主要针对3级(L3)和4级(L4)。对于L3,需要有驾驶员来处理自动化系统无法应对的驾驶情况。自动驾驶汽车的任务是在特定条件下完成驾驶,例如在高速公路或城市交通拥堵中行驶。许多车辆制造商目前正专注于将其L3自动化系统集成到产品中,例如奥迪的交通拥堵辅助系统[2]。从L4开始,不再需要请求人类驾驶员接管。车辆必须能够分析驾驶状况并做出明智决策,例如何时变道、转弯、加速或刹车。即使发生设备故障,自动驾驶系统也应能独立安全地处理这些操作。然而,在L4级别下,对于特别复杂的情况(如系统故障),仍保留人工干预的可能性。L5级车辆可在所有情况下运行,并提供更完善和更高品质的服务。
目前,自动驾驶汽车已实现三级自动驾驶,并正在向L4级自动驾驶迈进。人类驾驶员仍然是主要决策者并监督整个系统。因此,三级自动驾驶领域的持续研究重点在于找到辅助人类驾驶员的最佳方式,并实现从人工驾驶到自动驾驶以及再返回的平稳且安全的过渡。系统应监控和分析车辆座舱内与驾驶员相关的活动,以确保不仅实现安全舒适的驾驶体验,还能在接管情况下顺利应对。
自动驾驶中的大多数任务都与感知相关。作为人类,我们主要通过视觉和语音接收信息,并分析这些信息以针对不同事件做出相应反应。为了赋予车辆同样的理解能力,研究人员正在自动驾驶汽车上应用人工智能(AI)技术,以实现对周围环境的自动化感知。此外,随着增强现实(AR)和虚拟现实(VR)等新兴技术的发展,个性化驾驶辅助、信息、导航和娱乐的新方式[3]–[5]得以实现。
驾驶安全的舱内应用场景
根据美国国家公路交通安全管理局(NHTSA)的数据,94%的严重事故是由驾驶员操作失误造成的[6]。自动驾驶系统的一项重要任务是确保驾驶员、乘客以及道路上其他车辆和行人的安全。由于三级自动驾驶和L4级自动驾驶要求驾驶员在场,系统需负责监控驾驶员状态。例如,系统需要评估驾驶员是否处于适合驾驶的状态,并在决策过程中为驾驶员提供辅助。表1概述了下文将讨论的用例。
表1. 驾驶安全的用例
| 用例 | 特性 | 方法 | 参考文献 |
|---|---|---|---|
| 驾驶员状态监测 | |||
| 情绪检测 | 生理信息(D) 声学信号 (D) 驾驶员图像 (D) | 前馈神经网络,卷积神经网络 SVM 模糊逻辑系统 高斯混合模型(回归模型) | [15]–[22] |
| 疲劳检测 | 眼睑运动 (D) 嘴部运动 (D) 头部姿势(D) 生理信息(D) 车辆动力学(V) | FFNN SVM 模糊逻辑系统 | [24],[25] [29],[30] |
| 分心检测 | 驾驶员和道路图像(D, O) 生理信息(D) 头部姿势(D) 车辆动力学(V) 驾驶员行为(D) | 半监督学习 支持向量机,随机森林 MIC CNN 高斯混合模型(预处理) | [31],[36],[37],[39]–[44] |
| 注意力检测 | 眼动(驾驶员) 头部姿势(D) 驾驶员完整图像(驾驶员) | 三维卷积神经网络 | [32]–[34] |
| 驾驶辅助 | |||
| 驾驶员意图分析 | 车辆位置与动态(车辆) 驾驶员和道路图像(D, O) 头部姿势(D) | 支持向量机, 随机森林 高斯混合模型(回归模型) 循环神经网络/长短期记忆网络 HMM 三维卷积神经网络 | [45]–[52] |
| 交通危险预警 | 头部姿势(D) 车辆动力学(V) 道路图像(O) | 模糊逻辑系统 | [54] |
| 接管准备 | 接管准备就绪评估 | 车辆动力学(V) 眼动(驾驶员) 驾驶员行为(D) | 支持向量机, K近邻 [60] FFNN |
FFNN:前馈神经网络;CNN:卷积神经网络;SVM:支持向量机;GMM:高斯混合模型;RF:随机森林;MIC:最大信息系数;RNN:循环神经网络;LTSM:长短期记忆网络;HMM:隐马尔可夫模型;KNN:K近邻。圆括号标记特性的来源:D =驾驶员;V =车辆;O =外部/道路视野。
驾驶员状态监测
近年来,已开发出多种驾驶员监控系统(DMS)。由于人工智能技术的快速发展,一些成熟的系统目前已在市场上得到应用。例如,Seeing Machines[7],法雷奥驾驶员监控[8],和 SmartEye驾驶员监控系统[9]。这些系统通常基于安装在驾驶员前方的摄像头获取的图像信息,通过分析驾驶员的面部表情、视线方向或头部姿势来推断相关信息。心率和皮肤温度等生理信号也可能包含有关驾驶员的重要信息。利用这些信息有助于评估驾驶员的警觉性、情绪以及注意力或分心程度。
情绪检测
驾驶员的情绪状态会极大地影响其在道路上的决策过程和整体行为。分析驾驶员的情绪状态,并在自动化系统中相应地处理这些信息至关重要。特别是,“攻击性驾驶”根据美国国家公路交通安全管理局(NHTSA)的定义,“路怒症”因其对道路安全的负面影响,已受到数十年的研究关注[10]。驾驶员在面对其他驾驶员的攻击性行为时,通常会以愤怒和类似的攻击性行为回应。由于这种反应在驾驶员中十分常见,因此定期监测驾驶员情绪显得尤为重要。通过自动识别驾驶员的情绪状态,可在“路怒症”引发攻击性或分心驾驶行为并升级之前发出预警,从而提升驾驶安全性。
由于情绪与面部表情密切相关,基于图像的情感识别自动化方法在过去几十年中一直是研究的重点。其中一些方法使用Cohn和Kanade的数据集,该数据集包含大量来自不同人员的面部图像序列。一项研究提出了一种系统,首先在图像中定位人脸,然后根据定位人脸的Gabor幅度表示对情绪进行分类。该工作中表现最佳的方法采用了 AdaSVM:通过AdaBoost选择的Gabor特征被用作SVM分类器的训练输入。在另一项研究中,局部二值模式被用作区分性特征而非Gabor特征,从而实现了非常快速的特征提取。同样,SVM被用作情感识别的分类器。
在舱内驾驶员情绪检测方面,通常使用图像、语音和生理信号来检测情感。一种名为Affectiva[22],的运动估计系统(也应用于汽车领域)利用驾驶员的面部图像和语音信号。该领域的大多数研究工作集中在生理信号上,因其适用性和准确率较高。在[15]–[17],中,通过多种医学技术测量生物电势:[16],中的肌电图、[16],[17],中的心电图、[15],中的脑电图(EEG)以及[16],[17]中的脑电图活动。除了生物电势外,皮肤温度也被用于[17]–[19], ,呼吸用于[16],[18], ,心率用于[19]。除了生理特征外,驾驶员的声学信号也在[20],[21]中被处理用于相同目的。语音可能无法像生物信号那样提供稳健的结果,但声学信号的采集简单且无干扰。
为了有效训练机器学习模型,需要多样化的 情绪 选择。在过去七年中,已从全球收集了大量 视频和音频数据 ,用于 情感AI系统 [22]。在[16],[18],[19],中,当在实验室的 模拟驾驶场景 中引发 驾驶员 的不同 情感行为 时记录数据。然而,在[20],中使用的是 真实世界语音片段 。一个名为 Emo‐DB 的 公开可用的语音数据库 在[21]中被使用。
借助大量真实世界的数据,训练非常深的CNN以对七种不同情绪[22]进行分类。在[16],[17],四个不同类别中情感(兴奋、放松、愤怒和悲伤)可通过前馈神经网络(FFNNs)进行检测。[17]中的研究使用了细胞神经网络,而[16]结合了前馈神经网络和模糊推理系统。前馈神经网络(FNNNs)也在[19]中被使用,但采用了不同的优化器进行训练:马尔夸特反向传播和弹性反向传播(RBP)算法。在五种不同情感状态的识别中,RBP取得了最高准确率为91.9%。[18]的作者提出了一种新颖的潜在变量模型,并将时态引入该模型。该模型的训练方式类似于高斯混合模型(GMM)的训练。
音频流被用作系统输入,并提取语音强度、音高和梅尔频率倒谱系数等声学特征,如[20],[21]所述。支持向量机和贝叶斯二次判别分类器分别在[20]和[21],中进行训练。此外,[20]采用语音增强技术以抵抗噪声背景的影响。研究还表明,将性别信息纳入可提高整体识别效果。
疲劳检测
驾驶疲劳严重影响道路安全。当检测到疲劳时,有必要提醒驾驶员休息。测量疲劳最常用的特性是眼睑运动,特别是眼睑闭合百分比(PERCLOS)[26]。其他有用的信息包括面部表情、生理信息(例如心率)和车辆数据(例如车速、方向盘转角和车道位置)。
为了成功实现疲劳检测,眼部指标非常有用 [24],[25],[27]–[30]。这些特征只需使用安装在驾驶员前方的普通摄像头即可采集。在[24],中,通过打哈欠(嘴部运动)和闭眼来测量;在[30],中,车辆数据也被证明是有用的。[27]中的研究利用眼睑速度来检测眨眼,以评估困倦程度。在[28]中,眨眼和头部动作被共同用作逻辑回归模型的输入信号,用于困倦状态分类。[29]中的研究比较了使用行为数据(眼睛和头部动作)、生理信息以及车辆数据的检测准确率。
可以应用不同的机器学习模型来判断驾驶员是否疲劳。[24]中使用模糊专家系统对驾驶员状态进行分类,而[25]则部署二元支持向量机分类器来检测睁眼与闭眼。[29],[30]中的前馈神经网络(FFNN)被证明适用于测量困倦程度。特别是在[29],中,前馈神经网络甚至可以预测驾驶员何时将达到某一特定水平。
分心检测
分心是影响驾驶安全的另一个主要威胁,促使研究人员研究那些常常导致注意力分散的驾驶行为。
根据[35], ,分心有四种不同的类别:视觉、认知、听觉和生物力学。视觉分心被定义为“视线离开道路”,这明显易于检测。在这种情况下,眼动注视是检测的关键特征。在[31],中,所提出的方法使用低成本的电荷耦合器件(CCD)摄像头估计三维头部姿态和三维眼动方向。这些估计值是相对于相机坐标系进行测量的。通过从相机坐标系到世界坐标系的旋转矩阵,可以测量驾驶员对道路的注视情况。
首先使用SVM分类器检测太阳镜。如果检测到太阳镜,则仅依赖头部姿态进行估计。[38]中的研究提出了一种标准化框架,用于评估跟踪驾驶员头部动作并在驾驶员分心时发出警报的系统。这种标准使得能够公平地评估不同的驾驶员头部跟踪系统。此外,该框架引入了地面实况数据采集系统Polhemus™ Patriot,并考虑了驾驶员相关的信息(例如性别、种族、年龄等)。[39]中利用眼动和驾驶数据实时分类正常驾驶与分心驾驶。该研究还证明了SVM分类器适用于此类任务。
与视觉分心相比,认知分心(如做白日梦或“陷入沉思”)更难检测。认知分心也被称为“思维脱离道路”,表示情境意识的丧失。面部表情和驾驶表现能够反映这种分心状态。[36]中的研究人员借助来自控制器局域网络(CAN)总线、麦克风以及记录道路和驾驶员的摄像头的多模态特征,探索了这两种分心的影响。分类器利用这些特征表示来区分不同的分心程度。
认知分心的原因多种多样。对驾驶员工作负荷的估计也可能影响驾驶员的认知状态。为了测量工作负荷,[37]提出了一种新的非线性因果检测方法,称为误差减少比因果法,以识别重要变量。此处使用的变量包括皮肤电导反应、手部温度、心率以及来自实际驾驶记录的GPS位置和加速度。随后训练一个支持向量机以选择合适的测量模型。
在[40]中研究了听觉‐认知分心。驾驶员的任务是统计每个目标声音出现的次数。眼动仪记录眼部和头部运动数据。这些数据随后用于训练拉普拉斯支持向量机和半监督极限学习机。该研究还证明,当提供更多的无标签数据时,使用半监督学习算法优于监督学习。生物力学分心指的是手动调节设备,例如调节收音机。解决方案是简化座舱内的人机界面(HMI)。
执行次要任务总会引起一种以上的分心。令人分心的次要任务包括打电话或饮食。深度神经网络能够识别这些行为,在动作识别方面非常有帮助。例如,在[43],[44],中,七种活动被分为两组:正常驾驶(正常驾驶、检查右侧后视镜、检查后视镜和检查左侧后视镜)和分心(使用车载收音设备、发短信和接听手机)。该数据集通过Kinect采集,因此记录了图像以及头部中心或上半身关节的坐标。
在[44]的研究中,使用RF、MIC和FFNN作为分类器,并采用头部和身体特征,而[43]仅使用驾驶员的图像。这些图像首先通过GMM进行处理以分割驾驶员身体,然后用于CNN训练。实验中使用的CNN骨干网络包括AlexNet、GoogLeNet和ResNet50。其中AlexNet表现最佳,其结果也超过了[44]。在[41],[42],中,AlexNet、InceptionV3和BN‐Inception等CNN被以端到端方式训练。这些网络实现了高准确率的分心行为识别。
注意力检测
DMS的另一项重要任务是了解驾驶员在驾驶过程中的视线方向。当检测到事件具有高严重性(例如行人正在过马路)时,如果驾驶员未注意,系统将向驾驶员发出警告[61],[62]。该任务是视觉注意力建模中的一个具体用例。视觉显著性和注视是测量注意力区域的常用工具。
眼动追踪眼镜能够跟踪注视位置,但驾驶员在驾驶时佩戴设备具有挑战性。在这种情况下,头部姿态估计有助于视线估计。在[32],中提出了一种流程:面部特征检测与跟踪、三维头部姿态估计和视线区域估计。除了使用面部关键点等手工设计特征外,[33]提出了一种深度卷积神经网络,用于在深度图像中定位驾驶员的头部和肩部位置。
不使用头部姿势信息也可以预测注意力焦点。例如,在[34],中,将原始视频、光流和语义分割信息输入多分支三维卷积神经网络,进行端到端训练以预测道路图像上的焦点区域。未来,对人类驾驶员的注意力预测可以为自动驾驶感知功能的注意力机制提供支持。
驾驶辅助
在“驾驶员状态监测”部分,我们讨论了DMS,即专注于并有助于安全驾驶的系统。高级驾驶辅助系统(ADAS)还通过向驾驶员发出潜在问题警报或接管车辆控制来避免事故。在过去几十年中,预测驾驶员意图和分析道路交通等功能也得到了研究。本节介绍集成到高级驾驶辅助系统中的这些功能。
驾驶员意图分析
加速、制动、转向、转弯和变道是驾驶过程中的常见任务。错误的决策可能导致危险情况或引发事故。高级驾驶辅助系统可协助车道保持或变道,并防止某些危险操作。为了辅助驾驶员,系统必须理解驾驶环境。在[45],中,视觉要点被用作前注意感知的图像描述符。图像由三个车载摄像头捕获。使用要点特征训练的随机森林分类器能够区分单行车道、交叉路口或T型路口等道路环境。此外,该系统还能利用驾驶环境信息实时成功预测驾驶操作。
一项重要的驾驶行为是变道。在[46]–[49],[52],中预测变道行为。文献[46]中的研究预测三类情况:向右/向左变道和不变道。特征由基于视觉和惯性测量单元的车道跟踪器收集。记录车辆相对于车道的位置——更具体地说,是横向位置和转向角。所提出的预测模型包括贝叶斯滤波器和SVM分类器。贝叶斯滤波器接收SVM的输出,并生成最终预测。文献[52]中的研究利用稀疏贝叶斯学习模型来预测是否会发生变道。输入特征包括来自面向道路的摄像头获取的车道位置信息、来自CAN总线的车辆参数,以及从驾驶员图像获得的驾驶员头部姿态。
在[48],[49],中,除了三种变道类别外,还包含了更多驾驶行为(右转/左转)。该数据集中的输入信息来源多样,包括驾驶员视频、车外道路、车辆动力学、全球定位系统和街道地图。[49]的研究利用了所有这些信息,并使用长短期记忆单元训练循环神经网络。根据[48],中的结果,该架构相较于支持向量机、随机森林或隐马尔可夫模型取得了最佳效果,且平均提前3.58秒预测动作。
利用驾驶员视频,端到端预测同样准确。例如,在 [50],中,顶部带有长短期记忆层的三维ResNeXt‐101以端到端方式进行训练。[51]中的结果证明,道路视频的信息与驾驶员视频的信息相互补充,在驾驶员操作预测中应同时考虑两者。[47]中的研究考虑了驾驶人的个性特征,因为高级驾驶辅助系统应符合驾驶员的习惯以确保整体安全,所以需要将驾驶员纳入考虑。该方法提出使用高斯混合模型根据个体驾驶风格来调整正弦变道运动学模型。
最后但同样重要的是,[53]概述了一种用于变道意图检测的多模块驾驶员意图推断系统。该系统由多个不同模块组成:交通场景感知模块、车辆动力学模块、驾驶员行为识别模块和驾驶员意图推断模块。从这项工作中可以看出,高级驾驶辅助系统中多模块融合正成为一种新兴趋势。
交通危险预警
高级驾驶辅助系统不仅应关注驾驶员的意图,还应同时观察道路交通状况。通过关联信息并及时通知驾驶员,可以预防一些交通事故。道路上的危险包括追尾碰撞、未注意到的行人、减速带或交通标志。
一种可能的解决方案是将驾驶员意图预测/驾驶员状态检测与道路交通检测相结合。这需要驾驶员监控、目标检测/跟踪以及数据融合模块同时工作。图1展示了系统的组成部分。仅使用道路信息的交通检测与座舱内应用无关,因此将不作讨论。
[54]中的系统由图1中的两个模块组成。驾驶员头部姿态估计是驾驶员注意力分析的初步部分。使用非对称人脸外观模型训练三维人脸模型。将二维特征点映射到三维人脸有助于确定驾驶员注意力的方向。驾驶员辅助系统的第二个组成部分是道路交通检测,该部分使用全局类Haar特征分类器来检测道路上前方车辆。此外,系统还能估计被检测车辆与自车相对于道路右车道的距离和角度。
模糊逻辑系统根据驾驶员和道路信息推断未来驾驶风险。
除了其他车辆外,行人和自行车也是道路上的其他重要因素。在[55],中,作者开发了一种配备座舱内体视抬头显示器(HUD)的行人碰撞预警系统,用于识别行人的接近位置和时间。这项工作还表明,增强现实技术对于座舱内的预警系统既有效又直观。
接管准备就绪评估
如前所述,在三级自动驾驶中,人类驾驶员应随时待命并准备接管车辆控制权。接管准备定义了驾驶员从自动驾驶模式中重新获得车辆控制的能力。在自动驾驶期间进行的非驾驶相关任务可能会干扰驾驶员重新获得车辆控制的能力[56]。因此,有必要帮助驾驶员保持接管准备就绪状态。
在本节中,我们讨论一些测量驾驶员接管准备就绪状态的方法论。
为了研究驾驶员的准备就绪状态,接管请求时间(TOR time)是一个关键术语。TOR测量的是接管请求发出至危险情况出现之间的时间(在此时间点之前驾驶员必须重新掌控车辆)。确定何时向驾驶员发出接管提醒至关重要。[58]的研究中探讨了四种不同的TOR时间。结果表明,基于性能的方法所确定的TOR能够为驾驶员提供最短的反应时间和最高的满意度。这种基于性能的方法考虑了驾驶行为的影响,最初是为机载防撞系统设计的。
除了接管请求时间外,还有其他可能影响接管行为的因素。这些因素可能包括交通状况的复杂性、车辆的自车运动以及次要任务的类型。在[56],中,研究人员研究了驾驶任务和次要任务的复杂性如何影响接管反应时间。一个数学公式根据实验数据估算接管反应时间。[57]中的研究创建了一个概念系统,能够利用驾驶员行为信息和生物特征数据直接估计准备就绪状态。提取的视线方向和头部运动属于驾驶员行为,而心率和呼吸频率则被视为生物特征数据。
采用机器学习方法来估计驾驶员准备就绪状态的研究相对较少,[60],[63],[64] 除外。作者使用多模态数据训练了不同的分类器,例如 K近邻 和 支持向量机。研究的数据包括偏离车道中心的最大距离、与前车的最小距离以及驾驶员的视线方向和行为。这些分类器用于预测接管准备的准确性。最佳结果由线性支持向量机实现:准确率达到79 %。
除了接管准备就绪状态的估计外,该系统还负责使驾驶员持续了解车辆内外的情况。在[59]中设计的交互式自动化控制系统通过显示器使驾驶员了解接管请求(TOR)。实验结果表明,由于该系统的支持,驾驶员对接管请求的响应时间缩短,碰撞总次数减少。[79]中的研究提出了一种采用增强现实(AR)的系统。在该系统中,增强现实用于在需要发出接管请求的潜在事故模拟中投射驾驶员车辆的数字孪生。在向驾驶员警示即将发生的情况后,执行接管请求。该研究表明,驾驶舱内的模拟有助于驾驶员更好地理解交通状况,并更有效地应对接管请求。
一个局限性是,这里介绍的所有项目都是使用驾驶模拟器进行的。由于接管任务是一个安全关键问题,因此应在真实驾驶场景中开展更多实验。
驾驶舒适性的舱内使用案例
自动驾驶汽车技术不仅使驾驶更加安全,也更加轻松。提升驾驶员和乘客的舒适性是另一个关键的研究课题。舒适性领域的任务通常属于非驾驶相关任务。在本节中,我们介绍一些旨在通过提高车辆智能化水平来优化座舱操作系统的研发。
便利性
便利性描述了系统根据驾驶员和乘客的需求自动完成非驾驶相关任务的能力。智能系统应以准确且及时的方式识别需求。为了感知需求,人工智能方法非常适用,因为它们能够分析人类行为及蕴含在人类行为中的信息。一个名为 “Drive&Act” 的新数据集被收集用于驾驶员动作识别目的[65]。数据在驾驶模式和自动驾驶模式下均被采集,且行为被细粒度标注。该数据集包含许多次要任务动作,例如佩戴太阳镜或阅读杂志。
视频由座舱内六个同步摄像头以红、绿、蓝(RGB)、深度、红外(IR)和身体姿态模态记录。准确识别这些行为可以提高舒适性。例如,当驾驶员戴上太阳镜时,遮阳板应自动翻下。该数据集的出现补充了用于座舱内动作识别的大规模基准数据。[65]中的作者也使用该数据集训练了不同的模型。基于3D卷积神经网络的模型取得了最佳性能。结果表明,人工智能方法在座舱应用中具有广阔前景。
听音乐可以为驾驶员和乘客提供更加舒适的旅程。[77]等研究表明,聆听合适的音乐可以改善驾驶员的情绪‐疲劳状态,从而提升驾驶表现。[77]中的研究提出了一种框架,可检测驾驶员情绪‐疲劳状态并据此推荐音乐。该框架利用不同的智能手机传感器来评估每位驾驶员的具体情况,并采用智能分析。例如,系统将启用最合适的算法对不同音乐情绪进行分类。
HMI
自动化功能越强的车辆,其人机界面(HMI)可能变得越复杂。在[66],[67]中提到了设计HMI的一些关键原则:应既能提供舒适性,又能激发用户适当水平的注意力。HMI应保持内容最少化,以减少分心。例如,[68]研究了传统车辆HMI系统中触觉旋钮设备的显示位置。结果表明,在执行次要任务期间,组合仪表显示位置可减少车道位置偏差。
[78]的作者提出使用增强现实技术在车辆中实现多层悬浮用户界面系统。该系统利用立体深度将不同信息分布在三层显示屏上。关键信息(如“燃油不足”警告)显示在最近的屏幕上,而较不重要的信息则移至后层并模糊处理。该系统旨在提供大量信息的同时,尽量减少对驾驶员的干扰。
手势和语音正成为简化人机界面系统的一种流行方式,因为在驾驶过程中它们能够减少视觉和生物力学分心。在车载环境中,手部手势识别采用了不同的传感器和识别算法。例如,[73]使用毫米波雷达传感器并训练了随机森林算法。该系统在所有六类手势上的平均准确率均超过90%。在[74],中,测试了多种模态,包括RGB、深度/红外图像以及三维手部关节点,他们训练了两种网络:C3D网络和长短期记忆网络。其中表现最佳的是使用三维手部关节点作为输入模态的长短期记忆网络模型,在12类手势上的识别准确率达到94.4%。在语音识别方面,也探索了针对驾驶场景的特殊应用。例如,在[75]中基于循环神经网络架构进行自然语言分析,以实现“设置/更改目的地或驾驶速度”等指令;在[76]中则采用支持向量机分类器构建车辆控制系统的防御策略,能够抵御隐蔽语音指令的攻击。
车辆中的另一个传统人机界面元素是供暖、通风和空调系统。通常,控制器采用手动编码,需要驾驶员分心操作。在[71], a control system deploying神经网络架构可以实现对座舱热环境的自动控制。首先,模型在用户调节系统时收集数据。经过训练后,模型能够学习用户的偏好,并相应地控制热环境。可以使用不同的机器学习技术来实现这一目标。在[72],中,通过强化学习(RL)实现自动控制。需要注意的是,与手动控制方法相比,RL控制器消耗的能量更少,并能产生更舒适的环境。
对于完全自动驾驶汽车,[67]提出人机界面应仅包含 “启动”、“停止”和“选择目的地” 的指令。此外,娱乐或地图等其他功能接口应包含在个人移动设备中。其优点在于将关键安全功能与非关键功能分离,同时保留非关键功能的个性化。
随着SAE等级的提高,驾驶员可以减少对驾驶任务的关注,并更多地使用人机界面(HMI)。人类因素在 HMI系统中变得更具影响力。[69]中的研究提出了一种 HMI框架,将驾驶员及道路其他使用者的人类因素归类为动态因素,并根据这些影响因素选择不同的人机界面。他们还提出了一种外部HMI,用于与道路上的其他使用者进行通信。对于自动驾驶而言,一个特定且重要的人类因素是对车辆的信任。[70],的研究重点是如何通过人机界面提高人类对自动驾驶汽车的信任。作者建议,HMI框架应考虑一段时间内的多个事件,而非仅关注一个孤立事件。
导航
导航是现代车辆中最显著的功能之一。许多驾驶员在查看个人导航设备时,曾经历过难以集中注意力于道路的情况。使用增强现实抬头显示(AR HUD)来展示导航路径、交通标志和地标是一种实用的解决方案。[11]中的研究表明,与传统的导航设备(即以自我为中心的街景视图和地图视图,后者在LCD显示屏上显示车辆在其周围环境中的位置)相比,驾驶员更倾向于使用增强现实抬头显示(AR HUD)进行导航。在抬头显示器上,方向信息显示在道路中央上方约2米高处的一个窄幅半透明表面上。此外,根据眼动测量结果,与LCD街景视图和地图视图相比,驾驶员每分钟分别多花了5.7秒和4.2秒注视前方道路。
在[80],该框架能够检测车辆和交通标志,并将其投射到增强现实抬头显示(AR HUD)上,帮助驾驶员避免一些危险事故。在检测方面,该框架采用AdaBoost学习算法使用车辆和交通标志的Haar特征进行训练。检测之后的下一个阶段是确定虚拟物体在抬头显示器(HUD)上的投影位置。为此,需要计算摄像头的相机参数及其相对于物体的相对位置。借助增强现实技术,虚拟物体被附加到真实物体上。在这种情况下,驾驶员会以不干扰的方式接收到道路上的关键信息提醒。
一项关于不同形式的增强现实导航指令在[81]中有效性的研究表明,最有效的布置方式是使用包围地标(例如 “120米后右转”)的框。与传统表示方法相比,响应时间和成功率分别提高了43.1%和26.2%。
表3. 所审查文章中数据采集硬件使用情况概述
| 硬件类别 | 硬件 | 特性 | 规格 | 数据集 | 参考文献 |
|---|---|---|---|---|---|
| 摄像头 | 近红外 CCD 摄像头 | 眼睑运动 来自面部图像 | 红外;25 帧/秒 | 在三个视频上测试,每个视频100帧/视频 | [24] |
| 广角相机 | 眼睑运动 从面部图像 | RGB,眼部区域 32 × 24像素,20帧/ 秒 | 八名参与者:1,068 张图像用于训练,337 测试用图像 | [25] | |
| 罗技c920网络摄像头 | 头部姿势和眼动注视 从面部图像中 | RGB,1,280 × 720像素,30 帧/ 秒 | 15名有效参与者:398个训练样本,170个用于测试 | [31] | |
| Allied Vision Tech Guppy Pro F‐125 B/C | 眼动注视 来自面部图像 | 灰度,800 × 600像素,30 帧/ 秒 | 1,860,761 张图像来自 50 名参与者: 六个类别,不平衡 | [32] | |
| IDS UI‐3241LE | 驾驶员图像 | 红外,1,280 × 1,024 像素,30 帧/秒 | 15 名参与者,总共 12 小时视频 | [65] | |
| 微软Kinect | 驾驶员图像 | RGB,950 × 540像素,15 帧/秒; 红外,512 × 424像素,30 帧/秒 深度,512 × 424像素,30 帧/秒 | 15 名参与者,总共 12 小时视频 | [65] | |
| 头部姿势 从面部图像 | RGB,1,920 × 1,080 像素,30 帧/秒 深度,512 × 424像素,30 帧/秒 | 110 个序列:22 名受试者,每人五次录制 | [33] | ||
| 驾驶员图像 | RGB,640 × 360像素,25 帧/秒 | 约 34,000 张图像:10 名受试者,每次10–20分钟录制 | [43] | ||
| GARMIN VirbX 摄像头 | 道路图像 | RGB,1,920 × 1,080 像素,25 帧/秒 | DR(eye)VE 数据集:八名参与者,555,000 帧(74 段5分钟序列) | [34] | |
| 未知摄像头 | 驾驶员图像 | RGB,640 × 480像素,30 帧/秒 | 12小时驾驶:480个视频片段(20名驾驶员,八种驾驶条件,三个片段) | [36] | |
| 未知摄像头 | 道路图像 | RGB,320 × 240像素,15 帧/秒 | 12小时驾驶:480个视频片段(20名驾驶员,八种驾驶条件,三个片段) | [36] | |
| 华硕ZenPhone (Z00UD) 后置摄像头 | 驾驶员图像 | RGB,1,920 × 1,080 像素 | 31 名参与者 | [41] | |
| TZYX 立体相机 | 道路图像 | 512 × 320像素,32 fps | 139 次变道:70 次用于训练,69 次用于测试 | [46] | |
| 未知摄像头 | 驾驶员图像 | 1,920 × 1,088 像素,25 帧/秒 | Brain4cars:共10名参与者 1,180 英里驾驶 | [48] | |
| 未知摄像头 | 道路图像 | 720 × 480像素,30 帧/秒 | Brain4cars:共10名参与者 1,180 英里驾驶 | [48] | |
| Pico Flexx TOF相机 | 手势 | 红外,224 × 171像素,45帧每秒 | [74] | ||
| 眼动仪 | FaceLAB眼动追踪设备 | 眼睑运动,头部 姿态,和注视: 眨眼持续时间/频率,PERCLOS,头部三维位置/旋转 扫描频率,以及等等 | 60赫 兹 | [29]:21名参与者,100–110分钟/参与者,每分钟一个样本 训练集:验证集:测试集 = 0.7: 0.15: 0.15 [39] : 10名参与者,6次15分钟 驾驶/每位参与者 [40]: 37名参与者,四重 交叉验证过程 | [29],[39], [40] |
| Smarteye Pro | 眼睑运动: 眨眼持续时间/频率,PERCLOS,瞳孔直径 | 60赫 兹 | 15名参与者,每位参与者驾驶20公里/参与者 398个训练样本,170 用于测试的样本 | [30] | |
| SMI ETG 2w 眼动跟踪眼镜 | 眼动注视 | 1,280 × 720像素,30 帧/秒 | DR(eye)VE 数据集:八参与者,555,000 帧(74段5分钟序列) | [34] | |
| Dikablis 专业版眼动仪 | 眼动注视 | 384 × 288像素,60赫兹 | 81名参与者,三种情况/ 参与者,留五次交叉 验证 | [60] | |
| 驾驶模拟器 | SCANeR Studio | 车辆动力学:与最近车道及中心的横向距离 汽车中心;车辆的侧向偏移 相对于车道的中心到居车道中心;穿越的时间;转向角/角速度, 等等; 车辆速度;方向变化次数/驶出道路次数 | 10赫 兹 | 在 [29]:21名参与者,100‐110分钟/参与者,每分钟一个样本 训练集:验证集:测试集 = 0.7:0.15:0.15 在 [30], 15参与者,20 公里的驾驶/参与者 398个训练样本, 170个测试样本 在[56]中:36名参与者 | [29],[30], 56 |
| TNO PreScan | 车辆动力学:速度、转/分、档位以及等等 | 30名参与者 | [58] | ||
| CAN总线 | CAN总线 | 车辆动力学:速度, 方向盘转角,制动 值,转/分钟加速度,转向灯状态 | 12小时驾驶 | 81名参与者,三种情况/ 参与者,留五次交叉 验证 | [36] |
| 100赫兹 | [60] | ||||
| 生理的测量 | 192通道数字脑电波测量系统 from NEURO Company | EEG | Nine participants | [15] | |
| Biopac MP150系统 Acqknowledge软件 | 生理信号: 心率,交感神经比率,迷走神经比率,交感‐迷走神经比率, 呼吸频率等 | 1,000 赫 兹 | 21名参与者,每分钟一个样本/参与者,每分钟一个样本 训练集:验证集:测试集 = 0.7: 0.15: 0.15 | [29] | |
| 激光传感器 | laserBIRD 激光扫描仪 | 头部姿势 | 50 赫 兹 | 81名参与者,三种情况/ 参与者,留五次交叉 验证 | [60] |
| 雷达和激光雷达传感器 | 未知雷达/激光雷达 | 相对距离、速度, 以及与周围 车辆 | 30赫兹,360°覆盖,最高可达50 m | 三名参与者,总计97次驾驶,平均持续51分钟 | [47] |
| 调频连续波毫米波雷达 | 手势 | 60赫兹,0.3毫米分辨率 | 六个类别,用于训练:五名参与者每个手势20次记录 测试:三名参与者,每个手势30次记录 | [73] | |
| 麦克风 | 未知麦克风 | 驾驶员语音 | 12小时驾驶 | [36] |
((续))
图3 具体用例、其技术和特征的汇总
结论
本文将总结我们所回顾的舱内使用案例中实施的人工智能技术以及这些应用对应的特征。舱内使用案例可以抽象为以下几类:分类问题、回归问题和传感器融合问题。例如,预测驾驶员是否疲劳[25] 属于分类问题;预测嗜睡程度[29] 属于回归问题;传感器融合的典型应用场景是[54]中提出的“交通危险预警”系统。当提供足够的数据时,人工智能方法能够轻松应对上述三类问题。这也解释了图2所示五种技术的使用频率。
图2展示了所有被审查的文章中使用的人工智能技术。值得注意的是,深度学习指的是采用分层结构(人工神经网络)的学习算法。尽管它是机器学习的一个子集,但由于其在计算机视觉研究中的重要性,通常被视为一个独立的类别。机器学习类别指的是除深度学习之外的各类算法。共有42项研究应用了人工智能技术。由于机器学习算法和深度学习网络在解决分类和回归问题时非常有效,因此这两类技术在调查文献中占据主导地位。具体而言,50.0%(21篇文章)的应用采用了机器学习算法,40.5%(17篇文章)使用了深度学习网络。模糊逻辑系统(4.7%)则用于处理来自不同传感器的多输入情况,如[24],[55]所示。
我们在表2中总结了本文讨论的用例及其与L3、L4和L5的关系。勾号()表示该用例在此级别中是一项重要功能。如表2所述,在L4和L5级别,驾驶辅助、接管准备和导航不再必要,因为人类驾驶员不会介入。驾驶员状态监测的目的也从L3到L4发生了变化。L3系统关注驾驶员异常,而L4和L5则关注乘客情绪与满意度。
表2. 不同场景下的用例及其实现 SAE等级(从三级自动驾驶到L5)
| 用例 | L3 | L4 | L5 |
|---|---|---|---|
| 驾驶员状态监测 | | | |
| 驾驶辅助 | | ||
| 接管准备 | | ||
| 便利性 | | | |
| HMI | | | |
| 导航 | |
在本文末尾,表3列出了所研究的使用人工智能技术的文献中用于数据采集的不同硬件。这些硬件被分为八种类别,如“硬件类别”列所示。“硬件”列中列出了硬件名称或型号。当原始文献中未提及名称时,部分标记为“unknown”。
图3总结了我们在调查中审查的所有用例。特征以树形结构的叶节点形式表示。不同颜色的线条代表不同的技术。用例以关键词的形式描述。如果一条线从叶节点延伸出来且末端是开放的,则表示该应用仅使用此特征作为输入。通常,应用程序会使用多个特征,并在图中用连接线表示。用例是位于线条上方 (或右侧)的最近关键词。从该概览中可以看出座舱内用例的以下特点:1)重要输入特征包括驾驶员的眼部和头部运动、驾驶员/道路的完整图像以及车辆位置和动态;2)流行的技术包括机器学习和深度学习;3)研究重点包括分心检测、人机界面设计和驾驶员意图分析。
图3 还包含了用于不同应用中的特征。例如,驾驶员图像被广泛用于分心和意图检测,以及便利性用途。对于未来的工作,将考虑集成多种功能的高层级模块。该模块应具备能够协调各个子模块工作的管理器。通过这种方式,可以节省车辆资源,并且不同的模块可以相互支持,以实现整体解决方案。
2万+

被折叠的 条评论
为什么被折叠?



