
图像视频处理
捡贝壳的男孩
Techer shapes the world
展开
-
Collaborative Spatiotemporal Feature Learning for Video Action Recognition 非官方代码分析
import torchimport torch.nn as nn# from mypath import Pathfrom torch.nn import functional as F'''问题:1 cost 模型中的参数共享这里是如何实现的? 用一个卷积核来对三个输入张量进行卷积,来实现参数共享。 2 cost 的时空融合是分层进行的,这里是如何实现的? 代码 175行-180行均是实现。 这里cost网络被调用了多次。''''''论文中的..原创 2020-11-14 20:53:41 · 235 阅读 · 0 评论 -
Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记
论文笔记1 引子 在本文中,我们提出了一种新颖的协作时空(CoST)特征学习操作,它与权重共享共同学习时空特征。 给定3D体积视频张量,我们通过从不同角度观看它们,将其展平为三组2D图像。 然后将2D卷积应用于每组2D图像。图1示出了来自示例性视频剪辑的三个视图的2D快照,其中一个人在体育场高跳。 H-W的视图是人类熟悉的自然景观。 通过在时间T上从该视图逐帧扫描视频,我们能够理解视频内容。 尽管来自涉及T(即T-W和T-H)的视图的快照难以为人类解释,但它们包含与正常H-W原创 2020-11-14 11:35:16 · 260 阅读 · 0 评论 -
Collaborative Spatiotemporal Feature Learning for Video Action Recognition 阅读笔记
论文笔记1 介绍1.1 引子在本文中,我们提出了一种新颖的协作时空(CoST)特征学习操作,它与权重共享约束共同学习时空特征。给定3D体积视频张量,我们通过从不同角度观看它们,将其展平为三组2D图像。 然后将2D卷积应用于每组2D图像。图1示出了来自示例性视频剪辑的三个视图的2D快照,其中一个人在体育场高跳。H-W的视图是人类熟悉的自然景观。 通过在时间T上从该视图逐帧扫描视频,我们能够理解视频内容。 尽管来自涉及T(即T-W和T-H)的视图的快照难以为人类解释,但它们包含与正常H-W视图完全原创 2020-11-09 21:40:05 · 287 阅读 · 0 评论 -
tsn阅读
tsn 论文阅读笔记1 论文链接链接:https://pan.baidu.com/s/1jh0r5M9XMqB14aRAi6ZNVw提取码:l8vx2 论文讲了什么这是一个视频级的预测,将一段video分成k个segment(论文中k=3),然后从每个segment里面分别随机取一帧即Snippets,将RGB和flow格式的图分别送入spatial ConvNet和Temporal ConvNet学习空间特征和时序特征,然后将不同segment的特征融合后输出分类结果。3 tsn 函数调用关原创 2020-09-24 20:00:36 · 410 阅读 · 0 评论