《深度学习视频理解》记录

最新推荐文章于 2025-02-23 10:55:59 发布

PIDGT

最新推荐文章于 2025-02-23 10:55:59 发布

阅读量953

点赞数 13

CC 4.0 BY-SA版权

分类专栏：记录文章标签：深度学习音视频人工智能

本文链接：https://blog.youkuaiyun.com/PIDGT/article/details/144876724

《深度学习视频理解》记录

动作识别
感谢

动作识别

个人读书记录，方便以后查阅。

传统算法

VLAD(Vector of Locally Aggregated Descriptor局部聚合描述向量) 将所有特征划分成多个聚类，对聚类内的特征汇合，将所有汇合的特征拼接成一个全局特征向量（特征聚类+特征分配+差值求和）。
HOG(Histogram of Oriented Gradient 方向梯度直方图)
HOF(Histogram of Optical Flow 光流直方图)
MBH(Motion Boundary Histogram 运动边界直方图)
Bag of Features(将图像视为由多个局部特征组成的集合，类似于文档中的词汇)
FisherVector(提取特征后，训练出高斯混合模型GMM，聚合对应的偏导数并归一化得到特征的统计信息)
Optical Flow光流法：计算视频沿水平、垂直和时间方向的梯度，反应了物体运动情况。基于亮度恒定假设。Lucas-Kanade方法，加入邻域光流相似假设。主流光流算法如TV-L1，深度学习后有FlowNet，FlowNet2.0。可视化要用两张图表示运动信息，用箭头或者不同颜色就可以用一张图表示。
传统动作识别算法DT(Dense Trajectories) 1）不同空间尺度密集采样特征点 2）特征点轨迹跟踪 3）特征提取(HOG/HOF/MBH/特征点位移向量) 4）特征编码+SVM分类
iDT DT+对相机运动估计（假设相邻帧变化小，用投影矩阵估计相邻帧关系，用人体检测器避免人的动作影响）+改进特征规范化方式 + Bag of Feature->Fisher Vector

经典网络结构回顾

在这里插入图片描述
MobileNet：将一个D组标准的3x3卷积替换成一个Depthwise+一个Pointwise
参数量：9D^2 参数量9D 参数量D ^2
计算量：9D^2HW 计算量9DHW 计算量D ^2 HW
当D>>9，mobilnet的卷积 / 标准卷积=1/D+1/9（参数量和计算量都是，比值大概是1/9）
在这里插入图片描述
MobileNetv2