视频语义分割笔记

最新推荐文章于 2025-06-11 13:06:49 发布

芯略

最新推荐文章于 2025-06-11 13:06:49 发布

阅读量3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：语义分割文章标签：计算机视觉深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qianchenkun/article/details/108635149

video semantic segmentation

第一篇、Deep Feature Flow for Video Recognition（DFF）（2017）

在这里插入图片描述

提出问题：快速准确的视频识别对于自动驾驶和视频监控等高价值场景至关重要。然而，将现有的图像识别网络应用于单个视频帧会导致大多数应用无法承受的计算成本。

解决问题：在这项工作中，我们介绍了深度特征流，这是一种快速准确的视频识别方法。它在稀疏关键帧上应用图像识别网络。它通过光流将深度特征图从关键帧传播到其他帧。

使用方法：光流法

整体网络训练策略：

1)采用随机梯度下降SGD，在每个batch，将一个关键帧k 和随机非关键帧 i 进行匹配，其中0<=i - k<=9，(比如cityscapes是第20帧标注的视频，每个视频总共有30帧，那么我们需要取出第20帧到29帧）进行训练。求损失的时候还是用标签和输出特征图进行criterion计算
（但是我有一点不明白，非关键帧没有标签图怎么求损失？？？？？）

2)我们在光流网络的最后输出中额外添加一些通道作为比例场输出（比例场用来正则化由于遮挡引起的光流传播误差。）

3)这里解决了我对第一点的疑惑：在这里插入图片描述特征从帧k 到帧i 的传播是通过这个函数进行的，M是预测的光流场，S是预测出来比例场，假设非关键帧有标签，那么在损失反向传播的过程中，我们可以对帧i的损失求梯度，，在这一项中包含了k帧的特征项，可以看出，对于每一个非关键帧的损失，即使没有标签图，他们的损失也是可以通过求关键帧的损失求得的，所以文章才说，在以前没有使用光流的时候，训练视频图像，进行逐帧训练只能使用带注释的帧，而DFF可以轻松使用所有帧，只要对其中某一帧i进行了注释。换句话说，即便使用稀疏的关键帧注释，DFF也可以充分使用数据。这对于许多视频识别任务可能是有益的。

推理复杂度

在这里插入图片描述

网络结构</

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄6年

1
原创

1
点赞

17
收藏

1
粉丝

关注

私信

热门文章

视频语义分割笔记 3091

分类专栏

语义分割 1篇

最新评论

视频语义分割笔记
StarAniya: 你好我想请问一下，视频语义分割测试的时候是在整个video上每一帧都预测并计算指标，还是只在部分帧上预测并计算指标呢？因为我看像Cityscapes每个video只有一帧标注，那如何测试在video上每帧的性能呢？如果不测试每一帧性能，那岂不是就不是视频语义分割（定义为分割视频的每一帧）？求大佬解答

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。