真实驾驶场景中的驾驶员语音检测研究
1. 自然真实驾驶语音语料库
研究贡献了一个名为自然真实驾驶(NRD)语音语料库的手动标注驾驶员语音语料库。以往研究在收集驾驶员语音时面临诸多挑战和成本问题,招募志愿者在模拟或真实环境中驾驶时记录语音,可能会影响信号质量,且模拟场景可能无法代表驾驶员自然说话的真实情况。
为解决这些问题,研究采用了一种替代方法来获取真实驾驶员语音。许多汽车评测平台会聘请媒体主持人对新推出的车型进行评测,主持人会详细介绍汽车规格,包括驾驶体验。在这些视频中,主持人的语音是在驾驶模式下录制的,且没有与数据收集相关的特定指令,因此这些数据可能包含驾驶员语音的真实特征。
具体操作步骤如下:
1. 从YouTube下载汽车评测视频。
2. 从视频中提取音频数据,其中包含驾驶员在真实环境中驾驶时的语音以及在干净环境中录制的旁白语音。
3. 将驾驶时的语音归为WDS(While - Driving Speech)类别,数据集中的其他语音归为NDS(Normal Driving Speech)类别。
4. 该语料库由两名男性和一名女性主持人的12个汽车评测视频(每人4个视频)创建而成,数据集大小约为2小时7分钟,其中WDS约为35分钟。
2. 驾驶员语音特征
当驾驶员在驾驶汽车的同时进行与语音相关的任务(如打电话或与乘客交谈)时,其语音被称为WDS。在这种情况下,驾驶员的注意力会在识别道路上的障碍物和理解正在进行的对话之间分配,因此可以合理假设驾驶员在这种情况下产生的语音会与正常语音不同。研究通过分析语音信号的特征,即音高、节奏、频谱扩展和滚降,来研究这些差异。
驾驶员语音检测与特征分析
超级会员免费看
订阅专栏 解锁全文
2126

被折叠的 条评论
为什么被折叠?



