
网络模型解读
文章平均质量分 90
CV技术指南(公众号)
博客原创均来源于公众号CV技术指南文章
展开
-
CNN结构演变总结(三)设计原则
CNN结构演变总结(一)经典模型CNN结构演变总结(二)轻量化模型前言:前两篇对一些经典模型和轻量化模型关于结构设计方面的一些创新进行了总结,在本文将对前面的一些结构设计的原则,作用进行总结。本文将介绍两种提升模型的表示能力的结构或方式,模型的五条设计原则,轻量化模型的四个设计方式。提升模型的表示能力的结构或方式1.“split-transform-merge”结构这个概念来源于ResNeXt(2017年),在文中作了如下解释。1)Split:将向量x分成低维嵌...原创 2021-03-10 00:29:47 · 704 阅读 · 0 评论 -
NLN: 非局部神经网络
导言:前面我们介绍了transformer的结构,这一篇是将transformer思想用于CV中的论文,创新点不多,值得写的地方也不多,但还是决定写一下,因为这篇论文可以用来给大家看看transformer用于CV会起到一些什么样的作用,以及transformer可以怎样用于CV中。 介绍transformer结构的时候提到了transformer最大的一个点是可以处理长距离的文本之间的联系,在CV中可以用于处理更大范围的感受野的信息,而不需要通过一层一层的堆叠卷积核来扩大感受野。在N...原创 2021-01-05 22:45:18 · 970 阅读 · 0 评论 -
FPT: Feature Pyramid Transfomer
导言:本文介绍了一个在空间和尺度上全活跃特征交互(fully active feature interaction across both space and scales)的特征金字塔transformer模型,简称FPT。该模型将transformer和Feature Pyramid结合,可用于像素级的任务,在论文中作者进行了目标检测和实力分割,都取得了比较好的效果。为了讲解清楚,若有transformer不懂的读者,关于transformer可以在公众号中看另一篇文《Transformer...原创 2020-12-30 23:03:27 · 1112 阅读 · 0 评论 -
iDT:使用增强轨迹的行为识别
Action Recognition with Improved Trajectories(2013)本文是DT的升级版主要贡献1.提出一种去除相机运动产生的轨迹的方法2.提出对人占屏比大的帧采用DPM进行行人检测,去除人的部分,再做相机运动估计。(这两点都是用于对计算的轨迹进行优化,降低算法以外的因素带来的影响)如图所示,第一排是两个连续帧叠加在一起,第二排是直接进行光流估计,第三排是去除了相机运动后的光流估计,第四排中白色的箭头是相机运动产生的trajecto...原创 2020-12-28 21:28:23 · 509 阅读 · 0 评论 -
DT: 用于行为识别的密集轨迹和运动界限描述子
论文: Dense trajectories and motion boundary descriptors for action recognition主要贡献1.提出了对采样特征点进行密集轨迹跟踪的方式2.提出基于运动界限直方图的描述子(MBH)3.介绍了9个数据集(虽然这些数据集不是这篇论文贡献出来的,但比较详细地介绍了这些数据集,不用自己去到处找有哪些数据集了,这一点是对个人的贡献,不是对这个领域的贡献)Dense Trajectories第一步,采样...原创 2020-12-28 21:18:35 · 801 阅读 · 0 评论 -
LTC: 用于动作识别的长期时间卷积
Long-term Temporal Convolution for Action Recognition(2017)主要贡献1.提出长期时间卷积网络(LTC)2.实现了在UCF-101(92.7%)和HMDB51(67.2%)数据集上行人动作识别的SOTA结果作者认为将视频分成短片段并通过利用每个片段的得分来整合视频级的信息,或者更复杂的方案像LSTM,都可能是次优的。因此作者提出长期的时间卷积网络(LTC),即采用更长的时间片段作为输入,但为了降低计算量,LTC模型把空...原创 2020-12-28 21:15:10 · 1032 阅读 · 0 评论 -
R-C3D:用于时间活动检测的区域3D网络
论文:R-C3D: Region Convolutional 3D Network for Temporal Activity Detection(2017)主要贡献1.提出一个包括活动候选区和任意长度活动的分类的端到端模型。如下图所示 2.提出在候选区生成和分类部分共享全卷积C3D特征,实现了比当前模型快5倍的速度。论文主要从Faster R-CNN受启发而来,论文大部分idea都是Faster R-CNN中提出的(看这篇论文的时候,我真是深感生不逢时啊),作者将2...原创 2020-12-28 21:10:12 · 372 阅读 · 1 评论 -
FstCN:使用分解时空卷积网络的行人动作识别
论文:Human Action Recognition using Factorized Spatio-Temporal Convolutional Networks(2015)背景视频序列中的人类动作是三维(3D)时空信号,表征了所涉及的人类和物体的视觉外观和运动动态。受卷积神经网络(CNN)成功用于图像分类的启发,最近进行了一些尝试来学习3D CNN以识别视频中的人类动作。然而,部分地由于训练3D卷积内核的高度复杂性和对大量训练视频的需求,3DCNN比较难以成功。这促使我们在本文中研究...原创 2020-12-28 20:48:02 · 997 阅读 · 0 评论 -
视觉Transformer综述
前几日,华为诺亚,北京大学,悉尼大学共同发表了论文《A Survey on Visual Transformer》,本文针对其重点内容进行翻译概括如下。文末附论文原文和本文完整版下载方式。导言: Transformer是一种主要基于自注意力机制的深度神经网络,最初是在自然语言处理领域中应用的。受到Transformer强大的表示能力的启发,研究人员提议将Transformer扩展到计算机视觉任务。与其他网络类型(例如卷积网络和循环网络)相比,基于Transformer的模型在各种视觉...原创 2020-12-26 23:48:57 · 5758 阅读 · 0 评论 -
一文读懂transformer(CV专享)
导言: transformer在这两年大火,CV界广泛应用transformer模型,充分吸收其idea到自己的领域。考虑到transformer本是应用于NLP的论文,其中很多内容都形成了共识,因此在论文中并未提及,就好像CV中论文提到图像预处理使用center crop , color jitter,但不会详细介绍这两个,这就是CV领域的共识,其他领域的人看到这两个将会很困惑,作为CV中人读transformer会被很多共识内容所折磨,包括很多介绍transformer的博客知乎,都是站...原创 2020-12-21 21:03:30 · 2709 阅读 · 2 评论 -
MobileNet系列之MobileNet_v1
导言: MobileNet系列是轻量级网络的一个系列,共有三个版本,本文MobileNet v1提出了一种有效的网络架构和一组两个超参数,这些超参数允许模型构建者根据问题的约束条件为其应用选择合适尺寸的模型,以构建非常小的,低延迟的模型,这些模型可以轻松地与移动和嵌入式视觉应用的设计要求匹配。01Depthwise Separable Convolution深度可分离卷积是将标准的卷积分解为深度卷积和1x1点卷积。深度卷积将单个滤波器应用于每个输入通道,点卷积将深度卷积的...原创 2020-12-18 12:11:42 · 390 阅读 · 0 评论 -
ShuffleNet系列之ShuffleNet_v2
导言:目前一些网络模型如MobileNet_v1, v2,ShuffleNet_v1, Xception采用了分组卷积,深度可分离卷积等操作,这些操作在一定程度上大大减少了FLOPs,但FLOPs并不是一个直接衡量模型速度或者大小的指标,它只是通过理论上的计算量来衡量模型,然而在实际设备上,由于各种各样的优化计算操作,导致计算量并不能准确地衡量模型的速度,换言之,相同的FLOPs会有不同的推理速度。这是一篇类似于《Rethinking the Inception Architectu...原创 2020-12-07 23:29:08 · 486 阅读 · 0 评论 -
DenseNet模型解读
导言:传统的卷积网络在一个前向过程中每层只有一个连接,ResNet增加了残差连接从而增加了信息从一层到下一层的流动。FractalNets重复组合几个有不同卷积块数量的并行层序列,增加名义上的深度,却保持着网络前向传播短的路径。相类似的操作还有Stochastic depth和Highway Networks等。这些模型都显示一个共有的特征,缩短前面层与后面层的路径,其主要的目的都是为了增加不同层之间的信息流动。DenseNet基于此提出了一种新的连接模式--Dense connec...原创 2020-12-07 23:22:56 · 508 阅读 · 0 评论 -
ShuffleNet系列之ShuffleNet_v1
导言:shuffleNet_v1在MobileNet_v1后,MobileNet_v2前提出。ShuffleNet系列也是针对移动端部署而提出的模型。ShuffleNet_v1结合了depthwise separable convolution和group convolution,提出了包含pointwise group convolution 和channel shuffle两项操作的ShuffleNet Unit。其中depthwise separable convolution来源于Xceptio原创 2020-11-28 09:23:05 · 289 阅读 · 0 评论 -
Inception系列之Inception_v2-v3
Inception系列之Inception_v1MobileNet系列之MobileNet_v2MobileNet系列之MobileNet_v3引言: Inception_v2和Inception_v3是在同一篇论文中,提出BN的论文并不是Inception_v2。两者的区别在于《Rethinking the Inception Architecture for Computer Vision》这篇论文里提到了多种设计和改进技术,使用其中某部分结构和改进技术的是Inception_v2...原创 2020-11-25 21:55:00 · 1618 阅读 · 0 评论 -
MobileNet系列之MobileNet_v3
MobileNet系列之MobileNet_v1MobileNet系列之MobileNet_v2导言:继MobileNet_v1和v2提出后,在2019年,MobileNet_v3在众人的期盼下出来了,MobileNet_v3论文提出了两个模型,MobileNet_v3-Large和MobileNet_v3-small,其主要区别在于层数不同(其余设计都一样),此外还包括一个用于语义分割的MobileNet_v3-Large LRASPP模型。MobileNet_v3成就...原创 2020-11-25 21:44:49 · 900 阅读 · 0 评论 -
MobileNet系列之MobileNet_v2
导言: MobileNet_v2提出了一些MobileNet_v1存在的一些问题,并在此基础上提出了改进方案。其主要贡献为提出了线性瓶颈(Linear Bottlenecks)和倒残差(Inverted Residuals)。01Linear Bottlenecks如上图所示,MobileNet_v2提出ReLU会破坏在低维空间的数据,而高维空间影响比较少。因此,在低维空间使用Linear activation代替ReLU。如下图所示,经过实验表明,在低维空间使用li...原创 2020-11-18 23:22:59 · 639 阅读 · 3 评论