
深度学习
karen17
这个作者很懒,什么都没留下…
展开
-
深度学习文章阅读1--Very deep convolutional networks for large-scale image recognition
本文主要研究:卷积深度在大规模图像识别中对预测性能的影响。主要贡献在于:使用3x3的卷积核(convolution filters)来增加网路深度,当深度推进到16-19层时,网络性能显著提升。1.引言卷积神经网络(ConvNets)在大规模图像/视频识别中区别显著成效,这主要归功于:大型公原创 2017-07-05 10:23:14 · 528 阅读 · 1 评论 -
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?网址:http://openaccess.thecvf.com/content_cvpr_2018/papers/Hara_Can_Spatiotemporal_3D_CVPR_2018_paper.pdfAbstract本文主要工作:当前传统的...原创 2019-07-16 16:51:21 · 1185 阅读 · 0 评论 -
CGNet: A Light-weight Context Guided Network for Semantic Segmentation
CGNet: A Light-weight Context Guided Network for Semantic Segmentation本文的motivation:移动端而言,当前state-of-the-art方法都参数太多,所以提出CG-Net, a lightweight and efficient network。其中每一个CG-block中,对每个点都学习local,surr...原创 2019-07-11 16:26:28 · 1502 阅读 · 0 评论 -
Learnable pooling with Context Gating for video classification
Learnable pooling with Context Gating for video classificationpaper:https://arxiv.org/pdf/1706.06905.pdfintroduction我们将youtobe-8m视频理解的问题定义为“temporal feature aggregation”。当前时间维度的增强方案有:max & a...原创 2019-07-11 14:54:29 · 901 阅读 · 0 评论 -
CBAM: Convolutional Block Attention Module
CBAM: Convolutional Block Attention Module网址:https://arxiv.org/pdf/1807.06521.pdfIntroduction本文主要工作: 1))改进了se-net中学习channel权重的方式 2)提出一种学习空间位置重要性的方法方法的出发点: 1)当前学习chan...原创 2019-07-15 14:18:57 · 3380 阅读 · 0 评论 -
Multi-Person Pose Estimation with Enhanced Channel-wise and Spatial Information
Multi-Person Pose Estimation with Enhanced Channel-wise and Spatial Information网址:https://arxiv.org/pdf/1905.03466.pdfintroduction本文的两点贡献: 1)提出一种a Channel Shuffle Module (CSM)来在通道维度加强不同...原创 2019-07-15 13:45:58 · 1209 阅读 · 0 评论 -
Squeeze-and excitation network
Squeeze-and excitation networkintrodutcionmotivation:当前一些研究表明,将attention机制引入网络中来捕获特征之间的空间相关性可增强CNN的表征,但本文希望建立channels之间的关系。整体的SE block的图:如上图所示:变换函数Ftr将输入x转化为特征U,U的shape为h*w*c。随后U经两个分支,在上面的分支...原创 2019-07-15 00:38:42 · 651 阅读 · 1 评论 -
SlowFast Networks for Video Recognition
SlowFast Networks for Video Recognition地址:https://arxiv.org/pdf/1812.03982.pdfintroduction总述:在行为识别中提出两分支的slowfast网络。其中slow pathway,在低帧率操作来捕获空间特征;fast pathway,高帧率操作来捕获运动特征。motivation:行为识别中,没必要同...原创 2019-07-15 00:10:47 · 2266 阅读 · 2 评论 -
TSM: Temporal Shift Module for Efficient Video Understanding
行为识别:TSM: Temporal Shift Module for Efficient Video Understanding 论文笔记abstract:TSM (Temporal Shift Module) shifts part of the channels along the temporal dimension,从而促进相邻帧之间的信息交换introduction:视...原创 2019-05-24 00:46:32 · 3116 阅读 · 0 评论 -
Recognize Actions by Disentangling Components of Dynamics
行为识别:Recognize Actions by Disentangling Components of Dynamics论文笔记文章补充材料:http://openaccess.thecvf.com/content_cvpr_2018/Supplemental/1067-supp.pdfAbstract本文提出一种新的convnet结果,该结构可以完全从原始视频帧中提取compon...原创 2019-05-17 16:40:05 · 388 阅读 · 0 评论 -
Non-local Neural Networks
行为识别:Non-local Neural Networks论文笔记abstract卷积or循环网络通常都是处理local neighborhood,但在本文中,我们提出non-local 操作来捕获long-range dependencies。实验数据:Kinetics和charades datasetsintroduction如何捕获long-range dependen...原创 2019-05-19 14:53:49 · 738 阅读 · 0 评论 -
深度学习文章阅读5----Densely Connected Convolutional Networks
Introduction 如果输入输出间有更短的链接,CNN会变得更deeper、accurate和efficient。本文提出DenseNet(Dense Convolutional Network),它以前馈的方式将每一层连接到其他的所有层,也就是说,对于某一层,它前面所有层的特征映射都被作为它的输入,而它自己的特征映射被作为所有后续层的输入。 Dens原创 2018-01-23 21:26:10 · 346 阅读 · 0 评论 -
深度学习文章阅读4--Learning Spatiotemporal Features with 3D Convolutional Networks
上一篇博客中,EmotiW 2016竞赛获胜者论文的很多实验参数都选自这篇论文。Introduction 视频数据分析是个很重要的工作,但也是个难题,难点就在于如何有效地提取视频表征,尤其是视频序列中的运动信息。在该问题上急需寻找一种通用的视频描述符来以一种相似的方式解决大规模的视频任务,该种描述符必须满足generic、compact、simple和efficien原创 2018-01-11 11:29:37 · 650 阅读 · 0 评论 -
深度学习文章阅读3--Video-based emotion recognition using CNNRNN and C3D hybrid networks
Introduction 本文为EmotiW 2016竞赛第一名的论文,主要利用了RNN和C3D解决视频分类问题,其中RNN将CNN从每个视频帧中提取出来的特征进行时序上的编码,C3D对人脸表征和运动信息同时建模,最后再融合音频特征,完成视频分类。本文以59.02%的正确率较EmotiW 2015 53.8%的正确率高出许多。Model 整体模型如图1,该模原创 2018-01-10 22:00:01 · 2957 阅读 · 7 评论 -
NetVLAD:CNN architecture for weakly supervised place recognition
NetVLAD:CNN architecture for weakly supervised place recognition写在前面:博主并不是做这个place recognition方向的,所以这篇paper我大概只看到netvlad层,后面的loss并不懂。因为近期做行为识别,想改进一下帧与帧之间的融合方案,所以过来学习一下vlad。ps.github的netvlad用pytorc...原创 2019-07-16 17:25:16 · 1480 阅读 · 0 评论