基于matlab的视频和深度学习的手势识别
此示例首先演示如何使用预训练的SlowFast视频分类器执行手势识别,然后演示如何使用迁移学习在自定义手势识别数据集上训练分类器。
基于视觉的人类手势识别涉及使用一组视频帧预测手势,例如挥手打招呼、手语手势或鼓掌。手势识别的一个吸引人的特点是,它们使人类能够与计算机和设备进行通信,而无需外部输入设备,如鼠标或遥控器。来自视频的手势识别有许多应用,例如消费电子和机械系统的控制、机器人学习和计算机游戏。例如,在线预测来自多个摄像头的传入视频的多个动作对于机器人学习非常重要。与图像分类相比,使用视频进行人类手势识别的建模具有挑战性,因为视频数据集的地面实况数据不准确,视频中的演员可以执行的手势种类繁多,数据集严重类不平衡,以及从头开始训练强大的分类器所需的大量数据。深度学习技术,如SlowFast双通路卷积网络,已经显示出使用迁移学习和在大型视频活动识别数据集上预先训练的网络在较小数据集上的性能有所提高。
注意:此示例需要用于慢速视频分类的计算机视觉工具箱模型。可以从加载项资源管理器安装用于慢速视频分类的计算机视觉工具箱模型。
二、使用预训练的视频分类器执行手势识别
下载预训练的 SlowFast 视频分类器以及要在其上执行手势识别的视频文件。下载的zip文件的大小约为245 MB。
加载预训练的慢速视频分类器。显示预训练视频分类器的类标签名称。
选择10个随机选择的视频序列对视频进行分类,以统一覆盖整个文件以找到视频中占主导地位的动作类。使用该函数对视频文件进行分类。该分类也可以应用于流视频。