视频动作合规

目标

识别视频中的员工动作是否符合规范。

基本方法

从视频流中抽若干帧,通过深度学习判断若干帧的动作数据,和规范预期数据对比,判断员工动作是否合规。

假定有一个无穷算力的机器,只需要把所有帧图像作为输入,动作数据作为输出,那么视频动作合规的需求就完成了。而机器算力总是有限的,视频动作合规的难点在于收敛入参,使算法简单化,同时提高识别效果。

视频识别比图像识别难,一是视频的参数(多帧图像)比图像多,二是在尝试寻找帧与帧之间的关联,而这些关联往往受光照、遮挡影响,难度变大。

具体方法

过程抽象

1. 视频预处理

粗粒度减少噪声。

  • 视频处理:视频抽帧,如随机抽帧、起止点抽帧;
  • 图像处理:如图像裁剪、尺寸调整、色彩变换;
2. 图片特征提取

获取初级特征,提取图像ROI(Region of Interest,感兴趣区域),如光流法、时空兴趣点检测。

光流法:识别一个像素在下一帧中运动到了哪,依赖光流约束方程,根据速度变化预测,光流法根据运动规律有不同的变形,涉及不同的具体算法实现

时空兴趣点检测:不同时间位置变化明显的点

3. 特征融合

获取中级特征,即对图片特征进行融合

4. 特征分类

获取高级特征,使用常见的机器学习算法,如K近邻、支持向量机

实现1:骨架方法

  1. 图片预处理;
  2. 图片特征提取:获取骨架信息,骨架运动信息;
  3. 特征融合;
  4. 特征分类:通过编写后逻辑实现;

实现2:大模型方法

在图片识别中,提供了一种快速识别图像中目标的方法,可以加速图片特征提取效率

  1. 图片预处理;
  2. 图片特征提取:获取图片目标;
  3. 特征融合:无;
  4. 特征分类:通过编写后逻辑实现;

大模型实现图像识别和视频识别的思路一致,是基于目标识别的代码后处理逻辑。

视频的后处理逻辑要比图像后处理逻辑更复杂,落地更难。

实现3:双流卷积神经网络

将视频分为两个独立流来处理:

  • 空间流:每一帧图片中的静态内容,如图像目标识别;
  • 时间流:不同帧图片中的运动信息,如光流算法;
  1. 图片预处理;
  2. 图片特征提取:提取空间流信息、时间流信息;
  3. 特征融合:融合空间流和时间流信息;
  4. 特征分类;

特征融合实际上是深度学习的过程,在多层卷积层中,决定在哪一层融合特征,取决于:

早期融合:早期合并特征,可以简化模型,特征融合后更容易找到综合特征,但也容易造成干扰,后期优化空间小;

后期融合:后期合并特征,可更好保留不同特征的独立信息,过程更可控,但不容易找到综合特征;

结论

如果沿用图像识别算法,则复杂度在于后处理逻辑代码开发;如果将多帧图片作为输入,可以获得视频动作的综合识别结果,但算力要求高了几个量级,算法难度提高,准确率也会下降。

视频动作识别在技术和算力支持上不算成熟,在实际应用中,应该存在定制和开发工作,但可以综合使用各种基础技术来加速场景落地。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值