动态手势识别模型微调的有效性研究
1. 引言
动态手势识别为自动驾驶、智能家居和机器人等众多应用提供了自然的用户界面。目前,手势识别的先进方法主要采用基于大规模数据集训练的深度神经网络(DNN),这些数据集通常通过 RGB 或深度相机收集。训练好的模型会直接部署到用户设备上进行推理,而不做进一步调整。
然而,不同用户在执行手势时,在风格、速度、使用的手(左手或右手)以及幅度等方面存在显著差异。这就导致基于全局数据训练的通用模型可能无法很好地泛化到未见过的用户,对不同用户的识别性能也可能大不相同。
为了提高模型性能并保护用户隐私,需要一种能够将模型适应用户特定数据的个性化方法。常见的 DNN 模型个性化方法是使用本地用户数据对预训练的全局模型进行微调,这种方法已在键盘输入预测和语音识别等领域得到应用,但在动态手势识别等个性化视频识别任务中的有效性尚未得到充分研究。
本文旨在评估微调在动态手势识别个性化中的有效性,具体贡献如下:
- 收集了来自 11 名用户的专有手势数据集。
- 对四种最先进的轻量级卷积神经网络(CNN)架构进行了全面实验。
- 研究了多个超参数对微调的影响,包括微调参数的数量、微调早期或晚期层、用户特定训练样本的数量、批量大小和学习率。
研究发现,通过合理选择微调策略和超参数,仅使用少量标记的用户特定训练样本并更新少量网络参数,就可以提高所有用户的个性化模型的识别准确率。具体有以下三个关键观察结果:
- 微调早期层可以实现与微调晚期层相似的准确率提升,但需要微调的参数显著减少。
- 每个手势类仅使用一两个用户特定训练样本进行微调,就可以提高识别准确率。
- 微调在小
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



