
CV
文章平均质量分 91
清欢守护者
人间有味是清欢
展开
-
实时语义分割调研
文章目录0. 前言1. 语义分割概述2. 一些总结3. 论文浏览3.1 ENet3.2 ICNet3.3 BiSeNet3.4 CGNet3.5 DFANet3.6 Fast-SCNN3.7 BiSeNetV23.8 HyperSeg3.9 Rethinking BiSeNet For Real-time Semantic Segmentation0. 前言实时语义分割(real-time semantic segmentation),目标是能实时跑在CPU上。本文调研的基本都是普通的语义分割方法,原创 2021-08-05 16:59:57 · 5254 阅读 · 4 评论 -
PytorchVideo Transforms 详解
文章目录0. 前言1. Mix 操作2. 普通操作2.1 Norm 与其他2.2 Sample Strategy2.3 Resize & Crop3. “高端”数据增强4. create_video_transform0. 前言看到 PytorchVideo 中有 RandAugment 以及 AugMix,我有心把这些引入 MMAction2。在写代码之前,先详细了解下 PyTorchVideo Transforms 的细节。PytorchVideo Transforms 主要可分为原创 2021-07-10 16:52:28 · 3413 阅读 · 1 评论 -
全景分割调研(3) 当前研究现状
文章目录0. 前言1. 研究现状2. 单篇论文笔记2.1 Panoptic Feature Pyramid Networks2.2 Panoptic-DeepLab: A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation2.3 Fully Convolutional Networks for Panoptic Segmentation0. 前言全景分割调研系列文章分为4篇问题引入与性能指标常用数据集当前研原创 2021-07-06 18:44:44 · 2280 阅读 · 0 评论 -
全景分割调研(1) 问题引入与性能指标
文章目录0. 前言1. 问题引入1.1 要解决什么问题1.2 用了什么方法1.3 还存在什么问题&可借鉴之处2 性能指标2.1 对于性能指标的要求2.2 PQ 的定义与实现2.3 COCO 中的细节0. 前言全景分割调研系列文章分为4篇问题引入与性能指标(本文)常用数据集当前研究现状(现有模型分类以及当前常见研究方向)相关开源项目简介本文主要内容全景分割的引入(也就是这篇论文的笔记)全景分割常用性能指标介绍1. 问题引入相关资料:arxivgithub原创 2021-07-06 00:26:55 · 963 阅读 · 0 评论 -
全景分割调研(2) 常用数据集
文章目录0. 前言1 COCO2 Cityscapes3 Mapillary4 KITTI5 Indian Driving Dataset附录COCO 数据集类别Cityscapes 类别0. 前言根据 paperswithcode 中描述,常用的全景分割数据集包括 COCO/Cityscapes/Mapillary/KITTI,下面分别介绍1 COCO官网,Github官网直接下载(只不过如果没有梯子,随缘进官网)数据:就是COCO2017的train/val/test数据集类别:原创 2021-07-02 19:29:31 · 3700 阅读 · 0 评论 -
CVPR2021 Tutorial & Workshop 调研
文章目录0. 前言Mobile Visual Analytics: A CVPR 2021 Tutorial2nd Comprehensive Tutorial on Video ModelingAffective Understanding in VideoLarge scale holistic video understandingThe Eighth International Workshop on Egocentric Perception, Interaction and Computing原创 2021-06-29 23:26:18 · 1051 阅读 · 1 评论 -
MMDetection CenterNet 源码解析
文章目录0. 前言1. 模型构建2. `BaseDetector`3. `SingleStageDetector`4. `CenterNetHead`0. 前言CenterNet是我很喜欢的一篇论文,直观、好懂。然而,官方的 CenterNet 源码质量真的一般,看过的人应该都有这种感觉。好消息是,MMDetection 中复现了 CenterNet,可以参考这里此外,我想要复现时空行为检测中的 MOC-Detector,这篇文章也是基于 CenterNet 的,所以要捋一捋 Cente原创 2021-06-14 02:39:26 · 2030 阅读 · 7 评论 -
mmaction2 性能指标相关源码解析
文章目录0. 前言1. 训练时性能指标2. 验证/测试时性能指标0. 前言想实现一个TubeDataset,要实现性能指标相关功能。之前一直都没有仔细研究过相关源码,趁这个机会都看一下。从结构上看,性能指标相关源码可以分为:训练时性能指标:无法通过配置文件配置,每类任务(分类、定位、检测)都有固定的性能指标展示验证时性能指标:通过 EvalHook 实现,EvalHook中的核心流程与测试时完全一致。配置文件中 evaluation 选项的参数会传递到 dataset.evalua原创 2021-06-11 19:14:58 · 1005 阅读 · 1 评论 -
HOI - Detecting and Recognizing Human-Object Interactions
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读论文基本信息领域:HOI作者单位:FAIR发表时间:CVPR 2018一句话总结:扩展 Fast R-CNN,使用多任务训练实现HOI中 human/verb/object 三元组预测1. 要解决什么问题之前的主要工作都集中在单个人/物体的识别上,然而在现实世界中,人与物体之间是存在相互关系的。2. 用了原创 2021-06-08 15:25:10 · 583 阅读 · 1 评论 -
Backbone - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读论文基本信息领域:Transformer作者单位:微软亚洲研究院发表时间:2021.3一句话总结:将 hierarchical 引入 Transformer1. 要解决什么问题CV和NLP任务相比,CV的特点是(换句话说,就是Transformer用在CV时可能存在的问题)large variation原创 2021-06-04 19:28:30 · 611 阅读 · 0 评论 -
行为识别 - No frame left behind: Full Video Action Recognition
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读论文基本信息领域:行为识别作者单位:荷兰代尔夫特理工大学发表时间:CVPR 2021一句话总结:使用多帧activations累加结果计算一次梯度,来替代普通求梯度方式。1. 要解决什么问题现在行为识别的输入数据是一个视频的 coarsely sub-sampled frames,换句话说,就是从视频中提取原创 2021-06-03 18:59:06 · 1024 阅读 · 6 评论 -
车道线检测调研(1) 参考资料以及数据集
文章目录0. 前言1. 车道线检测资料汇总2. 常用数据集介绍2.1 Tusimple2.2 CULane dataset0. 前言总目标:一周内调研车道线检测,寻找合适的Demo跑通。小目标:汇总车道线检测较好的资料了解相关数据集的形式了解SOTA方法以及开源代码本文内容就是小目标的前两部分车道线检测应该分为折线预测与分割预测两类目前只关心前者1. 车道线检测资料汇总Github Awesome 系列汇总:amusi/awesome-lane-detection原创 2021-04-25 15:13:44 · 2180 阅读 · 1 评论 -
行为识别 - Is Space-Time Attention All Y ou Need for Video Understanding?
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读论文基本信息领域:行为识别作者单位:Facebook发表时间:2021.2一句话总结:尝试几种朴素的Video Trnasformer self-attention 结构1. 要解决什么问题如何将 Transformer 与视频类算法结合视频类算法与NLP有一些相似之处都是序列(sequence)一个原创 2021-04-22 10:28:51 · 770 阅读 · 0 评论 -
行为识别 - ViViT: A Video Vision Transformer
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub(非官方实现,还没做完),官方版的说要发布但暂时还没有看到论文解读论文基本信息领域:行为识别作者单位:Google Research发表时间:2021.3一句话总结:提出了两种时空token构建方式以及3中时空transformer设计方式1. 要解决什么问题如何使用纯 Transformer 实现视频分类。2.原创 2021-04-22 00:04:18 · 5827 阅读 · 5 评论 -
行为识别 - Video Transformer Network
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读论文基本信息领域:行为识别作者单位:Theator公司发表时间:2021.2一句话总结:CNN+LSTM中把LSTM换成Transformer1. 要解决什么问题Transformer 用到视觉中的主要问题就是,如何构建输入序列。VIT 将 Transformer 引入图像分类,就是将图像分为若干个不重叠原创 2021-04-21 17:21:17 · 4399 阅读 · 2 评论 -
HOI - PaStaNet: Toward Human Activity Knowledge Engine
文章目录0. 前言1. 要解决什么问题2. 用了什么方法2.1. 数据集介绍2.2. 模型介绍3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub,官网论文解读(卢老师解读),一作讲座论文基本信息领域:不仅仅包括HOI作者单位:上海交大发表时间:CVPR 2020一句话总结:提出了一种基于知识驱动(识别人体不同部分以及每个部分的状态,并推理出行为信息)的图像级行为理解方法。1. 要解决什么问题卢老师解读原文:之前的方原创 2021-03-18 17:26:53 · 773 阅读 · 0 评论 -
行为识别 - ACTION-Net: Multipath Excitation for Action Recognition
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读论文基本信息领域:行为识别作者单位:都柏林圣三一大学(爱尔兰的……)&字节发表时间:CVPR 2021一句话总结:设计了一个小模块(用于提取时空、channel、motion特征),与TSM相同的形式嵌入TSN中。1. 要解决什么问题当前行为识别模型的问题:2D模型速度快性能低。3D模型性能高速原创 2021-03-15 14:49:10 · 2410 阅读 · 11 评论 -
Backbone - Involution: Inverting the Inherence of Convolution for Visual Recognition
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读论文基本信息领域:卷积基本结构作者单位:港科技&字节发表时间:CVPR 2021 Oral一句话总结:设计了一种“内卷”的卷积结构替代普通卷积,卷积核是通过特征图算出来的1. 要解决什么问题卷积操作有两个固有特点spatial-agnostic:同一个卷积核到图像的哪个位置都能用,换句话说,所有位原创 2021-03-12 12:19:16 · 909 阅读 · 1 评论 -
数据增强 - Cutout、Random Erasing、Mixup、Cutmix
文章目录0. 前言1. Cutout1.1. 要解决什么问题1.2. 用了什么方法1.3. 效果如何1.4. 还存在什么问题&可借鉴之处2. Rand Erasing2.1. 要解决什么问题2.2. 用了什么方法2.3. 效果如何2.4. 还存在什么问题&可借鉴之处3. Mixup3.1. 要解决什么问题3.2. 用了什么方法3.3. 效果如何3.4. 还存在什么问题&可借鉴之处4. Cutmix4.1. 要解决什么问题4.2. 用了什么方法4.3. 效果如何4.4. 还存在什么问题原创 2021-02-18 14:44:58 · 13898 阅读 · 3 评论 -
数据增强 - AutoAugment 系列论文(1)
文章目录0. 前言1. AutoAugment1.1. 要解决什么问题1.2. 用了什么方法1.3. 效果如何1.4. 还存在什么问题&可借鉴之处2. Fast AutoAugment2.1. 要解决什么问题2.2. 用了什么方法2.3. 效果如何2.4. 还存在什么问题&可借鉴之处3. PBA3.1. 要解决什么问题3.2. 用了什么方法3.3. 效果如何3.4. 还存在什么问题&可借鉴之处0. 前言介绍AutoAugment系列论文AutoAugment:系列的开山之作原创 2021-02-17 21:22:46 · 6986 阅读 · 0 评论 -
Charades & CharadesEgo & Action Genome 数据集以及论文总结
0. 前言本文介绍Charades系列数据集,包括:Charades:ECCV 2016,第一个家庭室内场景下的日常行为识别数据集,是通过众包完成的。数据集采集方式挺有意思,用户先写剧本(根据关键字造句),再自行拍摄视频,最后其他人标注。CharadesEgo:CVPR 2018,第一个成对的行为识别数据集。所谓成对指的是,对于同一系列动作,同时有第一视角视频与第三视角视频。论文希望对第一视角、第三视角数据集进行建模。Action Genome:CVPR 2020,是对Char原创 2021-01-31 14:39:56 · 4467 阅读 · 1 评论 -
视频数据增强 - VideoMix: Rethinking Data Augmentation for Video
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读论文基本信息领域:视频数据增强作者单位:NAVER AI LAB(韩国最大搜索引擎公司)& 韩国科学技术院发表时间:2020.12一句话总结:印象中第一篇视频数据增强工作1. 要解决什么问题当前的视频分类模型存在过拟合的问题模型学到的可能是背景或周围物体信息,而没有关注动作本身,这导致模型进入局部原创 2021-01-30 17:16:36 · 2940 阅读 · 2 评论 -
Backbone - RepVGG: Making VGG-style ConvNets Great Again
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读(作者本人解读,其实已经说得很清楚了):本文很多内容直接复制这一片。其实更建议大家看作者人本的文章,嘿嘿。论文基本信息领域:图像分类作者单位:清华&旷视科技发表时间:2021.1一句话总结:解耦模型训练与模型部署,训练分支模型,经过等价转换变为单路模型,最终部署单路模型1. 要解决什么问题先定义下单原创 2021-01-17 19:34:56 · 620 阅读 · 1 评论 -
姿态估计 - Deep High-Resolution Representation Learning for Human Pose Estimation
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读(写得很好,值得看)本文中截图来自论文或上面这篇博客论文基本信息领域:姿态估计作者单位:中国科学技术大学&微软亚洲研究院发表时间:CVPR 2019一句话总结:提出一种新的backbone设计思路,即不同尺寸的特征图之间进行多次信息融合。1. 要解决什么问题为了获取图像中的位置信息(如目标检测、姿态原创 2021-01-13 11:06:22 · 427 阅读 · 0 评论 -
姿态估计 - Simple Baselines for Human Pose Estimation and Tracking
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读论文基本信息领域:人体姿态跟踪作者单位:微软亚洲研究院发表时间:ECCV 2018一句话总结:提出了单人姿态估计(ResNet+Deconv)以及人体姿态追踪(上一帧结果+光流预测当前帧结果,基于光流的bbox相似度计算方法)的简单方法。1. 要解决什么问题当时在姿态估计上有较大进展,担任姿态估计数据集MPI原创 2021-01-12 08:45:44 · 877 阅读 · 0 评论 -
姿态估计 - Stacked Hourglass Networks for Human Pose Estimation
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub(mmpose)论文解读(有几张图,比论文原图更清晰)论文基本信息领域:姿态估计作者单位:密歇根大学发表时间:ECCV 2016一句话总结:提出了沙漏(hourglass)式的backbone。1. 要解决什么问题当时对卷积神经网络在姿态估计中的研究还不充分,还在探索各类新的结果来处理姿态估计问题。姿态估计的最终目原创 2020-12-31 10:03:20 · 285 阅读 · 0 评论 -
姿态估计 - Convolutional Pose Machines
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读,论文解读2论文基本信息领域:姿态估计作者单位:卡耐基梅隆大学发表时间:2016 CVPR一句话总结:姿态估计的奠基之作,使用多stage细化关键点结果,每个stage都添加loss抑制梯度消散。1. 要解决什么问题使用卷积网络解决姿态估计问题。这论文比较早了,感觉类似于图像分割中的FCN。2. 用了什原创 2020-12-22 11:35:00 · 1120 阅读 · 1 评论 -
行为识别 - TDN: Temporal Difference Networks for Efficient Action Recognition
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub:还没有开源论文解读论文基本信息领域:行为识别作者单位:南京大学发表时间:2020.12一句话总结:使用RGB difference设计了新的特征提取结构。1. 要解决什么问题探索高效的temporal modeling方式。常见的 temporal modeling 方式有两种使用双流法,RGB用来提取app原创 2020-12-21 19:23:46 · 4381 阅读 · 0 评论 -
行为识别 - A Comprehensive Study of Deep Video Action Recognition
文章目录0. 前言1. 数据集概述1.1. 看图说话1.2. 数据集概述1.3. 具体数据集概述2. 模型发展2.1. 看图说话2.2. 模型概述与挑战2.3. 模型的发展3. 性能指标与结果展示4. 其他研究方向0. 前言相关资料:arxivgithub(GluonCV也不得不开始支持PyTorch啦,对我来说是好事)论文解读论文基本信息领域:行为识别作者单位:亚马逊发表时间:2020.12一句话总结:从数据集、模型的角度介绍行为识别的发展历程,提供了代码库,探讨了当前的原创 2020-12-21 16:57:10 · 2521 阅读 · 10 评论 -
目标检测 - Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读(作者本人介绍),知乎讨论论文基本信息领域:目标检测作者单位:香港大学&同济大学&字节跳动发表时间:2020.11一句话总结:使用固定数量的 learnable box/feature(与backbone无关) 替代anchors,从而将原始one/two-stage检测方法转换为set predic原创 2020-11-26 11:41:00 · 2796 阅读 · 0 评论 -
Transformer - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub,PyTorch论文解读论文基本信息领域:Transformer & CV作者单位:谷歌发表时间:2020.11一句话总结:使用纯Transformer用于图像识别1. 要解决什么问题之前在CV中,attention一般用于卷积网络中,或者用于替换CNN的一部分(但总体还是CNN结构)。2. 用了什原创 2020-11-16 11:11:35 · 7072 阅读 · 0 评论 -
目标检测 - Deformable DETR: Deformable Transformers for End-to-End Object Detection
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub,说会release论文解读,知乎讨论论文基本信息领域:目标检测作者单位:商汤发表时间:2020.10一句话总结:在DETR中加入了Deformable1. 要解决什么问题DETR存在一些问题:收敛速度慢(需要训练更多的epochs)Transformer处理图像数据时,feature spatial reso原创 2020-11-16 01:22:29 · 5034 阅读 · 2 评论 -
目标检测 - End-to-End Object Detection with Transformers
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读,知乎讨论,知乎讨论2论文基本信息领域:目标检测作者单位:FAIR发表时间:2020.5一句话总结:提出了一种不同于之前工作的新目标检测解决方案1. 要解决什么问题当前的目标检测解决方案(比如Faster RCNN/YOLO/CenterNet等)都不够直观把检测任务分解为获取候选框/anchors/图像原创 2020-11-15 14:52:31 · 638 阅读 · 0 评论 -
Transformer - Attention is All you need
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读,论文解读2论文基本信息领域:自然语言处理作者单位:Google发表时间:2017.6一句话总结:Transformer 开山之作1. 要解决什么问题在处理序列数据时,当时常用的结构都是RNN/CNN+Attention。虽然当时都取得了一些进展,sequential computation 的根本问题还存原创 2020-11-14 12:06:48 · 175 阅读 · 0 评论 -
SlowFast/mmaction2 中的 GradCAM 工具
文章目录0. 前言1. SlowFast 中的 GradCAM1.1. GradCAM的功能1.2. GradCAM 的原理1.3. SlowFast 中的具体实现2. mmaction2 复现 GradCAM 功能2.1. mmaction2 中的 shape2.2. GradCAM 的具体实现2.3. 其他0. 前言最近一直在mmaction2上进行二次开发,有一个需求,想实现一个gradcam工具来分析模型训练结果。目前实现在行为识别模型上的功能实现,已提交PR未来希望能在时空行为检测上实原创 2020-11-11 13:01:29 · 1777 阅读 · 2 评论 -
行为识别 - Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读论文基本信息领域:行为识别作者单位:MIT & IBM发表时间:2020.10一句话总结:实验报告,总结现有行为识别模型的特点1. 要解决什么问题当前行为识别模型研究现状:2D模型在Something-Something上效果更好,3D模型在Kinetics上效果更好。现在行为识别模型的对比上原创 2020-10-27 03:11:32 · 911 阅读 · 0 评论 -
论文浏览(50) RubiksNet: Learnable 3D-Shift for Efficient Video Action Recognition
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&有什么可以借鉴0. 前言相关资料:arxiv,下载github,官网论文解读论文基本信息领域:行为识别作者单位:斯坦福大学 李飞飞组发表时间:ECCV 20201. 要解决什么问题行为识别模型要求大量算力,主要就是对spatial和temporal维度进行卷积操作。最近的关于轻量化模型的研究,一个方向就是将对 spatial 与 temporal 维度上的操作拆原创 2020-10-05 23:27:57 · 867 阅读 · 0 评论 -
论文浏览(49) Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&有什么可以借鉴0. 前言相关资料:arxivgithub论文解读论文基本信息领域:时空行为检测作者单位:Google发表时间:ECCV 20201. 要解决什么问题视频分类的进展十分迅速,但时空行为检测的进展却比较一般作者认为其中一个主要原因是:时空行为检测的数据标注困难较高,需要标注视频中的每一帧图像。2. 用了什么方法目标:只是用 clip-l原创 2020-10-05 15:47:17 · 519 阅读 · 0 评论 -
论文浏览(48) Online Learnable Keyframe Extraction&Application with Semantic Word Vector in Action Recogn
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&有什么可以借鉴0. 前言论文名称:Online Learnable Keyframe Extraction in Videos and its Application with Semantic Word Vector in Action Recognition相关资料:arxivgithub论文解读论文基本信息领域:视频理解作者单位:加拿大 University of Albe原创 2020-10-04 14:39:54 · 423 阅读 · 1 评论 -
论文浏览(47) CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action Localization
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&有什么可以借鉴0. 前言相关资料:arxivgithub论文解读论文基本信息领域:时空行为检测作者单位:上海交大&上海大学发表时间:ECCV 20201. 要解决什么问题之前的 action detection 方法都是先在 frame-wise 或 clip wise 进行检测,得到 action proposals,在连接结果。因为要对每一帧都要进行原创 2020-09-29 00:52:33 · 806 阅读 · 0 评论