《深度学习视频理解》记录

动作识别

个人读书记录,方便以后查阅。

传统算法

VLAD(Vector of Locally Aggregated Descriptor局部聚合描述向量) 将所有特征划分成多个聚类,对聚类内的特征汇合,将所有汇合的特征拼接成一个全局特征向量(特征聚类+特征分配+差值求和)。
HOG(Histogram of Oriented Gradient 方向梯度直方图)
HOF(Histogram of Optical Flow 光流直方图)
MBH(Motion Boundary Histogram 运动边界直方图)
Bag of Features(将图像视为由多个局部特征组成的集合,类似于文档中的词汇)
FisherVector(提取特征后,训练出高斯混合模型GMM,聚合对应的偏导数并归一化得到特征的统计信息)
Optical Flow光流法:计算视频沿水平、垂直和时间方向的梯度,反应了物体运动情况。基于亮度恒定假设。Lucas-Kanade方法,加入邻域光流相似假设。主流光流算法如TV-L1,深度学习后有FlowNet,FlowNet2.0。可视化要用两张图表示运动信息,用箭头或者不同颜色就可以用一张图表示。
传统动作识别算法DT(Dense Trajectories) 1)不同空间尺度密集采样特征点 2)特征点轨迹跟踪 3)特征提取(HOG/HOF/MBH/特征点位移向量) 4)特征编码+SVM分类
iDT DT+对相机运动估计(假设相邻帧变化小,用投影矩阵估计相邻帧关系,用人体检测器避免人的动作影响)+改进特征规范化方式 + Bag of Feature->Fisher Vector

经典网络结构回顾

在这里插入图片描述
MobileNet:将一个D组标准的3x3卷积替换成一个Depthwise+一个Pointwise
参数量:9D^2 参数量9D 参数量D ^2
计算量:9D^2HW 计算量9DHW 计算量D ^2 HW
当D>>9,mobilnet的卷积 / 标准卷积=1/D+1/9(参数量和计算量都是,比值大概是1/9)
在这里插入图片描述
MobileNetv2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值