
deep learning-paper
文章平均质量分 90
zhuiqiuk
这个作者很懒,什么都没留下…
展开
-
YOLOv3:An Incremental Improvement全文翻译
原标题: YOLOv3: An Incremental Improvement原作者: Joseph Redmon Ali Farhadi翻译者: AmusiYOLO官网:YOLO: Real-Time Object Detection论文链接:https://pjreddie.com/media/files/papers/YOLOv3.pdfYoutube:https://www....转载 2019-03-05 15:59:49 · 2679 阅读 · 0 评论 -
Caffe中的Convolution+BatchNorm+Scale模块参数设置 & 融合
Convolution+BatchNorm+Scale+Relu的组合模块在卷积后进行归一化,然后在放出非线性Relu层,可以加速训练收敛。但在推理时BatchNorm非常耗时,可以将训练时学习到的BatchNorm+Scale的线性变换参数融合到卷积层,替换原来的Convolution层中weight和bias,实现在不影响准确度的前提下加速预测时间。一、Convolution+BatchN...转载 2019-03-03 16:17:18 · 3537 阅读 · 0 评论 -
Openpose--学习记录
一、code前向代码https://github.com/CMU-Perceptual-Computing-Lab/openposeTraining code included in theoriginal CVPR 2017 GitHub repository.https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimatio...原创 2019-03-06 15:45:52 · 737 阅读 · 0 评论 -
自动驾驶中单目摄像头检测输出3-D边界框的方法一览
单目图像估计3-D检测框是目前自动驾驶研发流行的,单纯的2-D检测框无法在3-D空间去做规划控制,去年百度Apollo发布2.5版本特意提到这方面的解决方案。这里分析一下公开发表的有关论文,特别是近期的深度学习CNN框架,供参考。其实最早看到3-D BBox的工作是Mobileye以前的CEO Shashua教授给的PPT demo(没有paper了):结果Tesl...转载 2019-03-03 22:42:06 · 3472 阅读 · 0 评论 -
CVPR2019 | 15篇论文速递(涵盖目标检测、语义分割和姿态估计等方向)
【导读】CVPR 2019 接收论文列表已经出来了,但只是一些索引号,所以并没有完整的论文合集。CVer 最近也在整理收集,今天一文涵盖15篇CVPR 2019论文速递,内容涵盖目标检测、语义分割和姿态估计等方向。特别鸣谢CV_arXiv_Daily公众号提供的素材,本文介绍的论文已经同步至:https://github.com/zhengzhugithub/CV-arXiv...转载 2019-03-03 22:43:56 · 12711 阅读 · 1 评论 -
矩阵分解笔记(Notes on Matrix Factorization)
本篇文章转自mingo_敏,作者文章地址:http://blog.youkuaiyun.com/shanglianlm/article/details/46755239本博文主要讨论 基本矩阵(Basic MF),非负矩阵(Non-negative MF)和正交非负矩阵(Orthogonal non-negative MF)三种常见的矩阵分解方法。并分别推导了它们的更新规则,收敛性,以及它们的应用。...转载 2019-03-07 00:09:45 · 952 阅读 · 0 评论 -
不用重新训练,直接将现有模型转换为 MobileNet
作者 |autocyz来源 |https://zhuanlan.zhihu.com/p/54425450原文 |http://bbs.cvmart.net/articles/301从MobileNet中的深度可分卷积(Depthwise Separable Convolution)讲起看过MobileNet的都知道,MobileNet最主要的加速就是因为深度可分卷积(D...转载 2019-03-07 09:50:31 · 1512 阅读 · 1 评论 -
不用批归一化也能训练万层ResNet,新型初始化方法Fixup
作者 |Hongyi Zhang等编辑 |路、思源来源 |机器之心原文 |https://arxiv.org/pdf/1901.09321v1.pdf批归一化(BN)基本是训练深度网络的必备品,但这篇研究论文提出了一种不使用归一化也能训练超深残差网络的新型初始化方法 Fixup。文中介绍了论文《Fixup Initialization: Residual...转载 2019-03-07 10:06:19 · 1774 阅读 · 1 评论 -
【darknet】:【net】层参数解释
https://blog.youkuaiyun.com/jinlong_xu/article/details/763753341.Batch_Size(批尺寸)该参数主要用于批梯度下降算法(Batch Gradient Descent)中,批梯度下降算法是每次迭代都遍历批中的所有样本,由批中的样本共同决定最优的方向,Batch_Size 正是批中的样本数量。若数据集比较小,可以采用全数据集(F...转载 2019-03-04 18:31:00 · 1104 阅读 · 2 评论 -
[论文笔记][ICLR-2019] Slimmable Neural Networks
Slimmable Neural Networks论文地址:https://arxiv.org/abs/1812.08928Github:https://github.com/JiahuiYu/slimmable_networksOpenReviews:https://openreview.net/forum?id=H1gMCsAqY7Motivation移动端的应用对算法运行效...转载 2019-03-02 19:24:18 · 811 阅读 · 0 评论 -
Caffe学习系列(2):数据层及参数
要运行caffe,需要先创建一个模型(model),如比较常用的Lenet,Alex等, 而一个模型由多个屋(layer)构成,每一屋又由许多参数组成。所有的参数都定义在caffe.proto这个文件中。要熟练使用caffe,最重要的就是学会配置文件(prototxt)的编写。层有很多种类型,比如Data,Convolution,Pooling等,层之间的数据流动是以Blobs的方式进行。...转载 2017-06-19 11:38:20 · 258 阅读 · 0 评论 -
浅谈caffe中train_val.prototxt和deploy.prototxt文件的区别
在刚开始学习的时候,觉得train_val.prototxt文件和deploy.prototxt文件很相似,然后当时想尝试利用deploy.prototxt还原出train_val.prototxt文件,所以就进行了一下对比,水平有限,可能很多地方说的不到位,希望大神们指点批评~~本文以CaffeNet为例:1.train_val.prototxt首先,train...转载 2017-06-19 12:47:06 · 433 阅读 · 0 评论 -
Darknet YOLOv3 资源合集
首先目标检测的入门文档:知乎-目标检测https://zhuanlan.zhihu.com/p/34142321voc版本数据集制作:voc格式数据集https://blog.youkuaiyun.com/ch_liu23/article/details/53558549yolo主页:yolo homehttps://pjreddie.com/darknet/yolo/yolo AB代...转载 2019-03-05 17:14:42 · 1029 阅读 · 0 评论 -
CNN 论文阅读
参考网站:知乎,计算机视觉论文速递 https://zhuanlan.zhihu.com/c_1725076741. 《CBAM: Convolutional Block Attention Module》ECCV 2018CBAM integrated with a ResBlock in ResNetAbstract:我们提出了卷积块注意力模块(CB...原创 2019-03-05 19:03:58 · 1087 阅读 · 0 评论 -
#Deep Learning回顾#之LeNet、AlexNet、GoogLeNet、VGG、ResNet
CNN的发展史 上一篇回顾讲的是2006年Hinton他们的Science Paper,当时提到,2006年虽然Deep Learning的概念被提出来了,但是学术界的大家还是表示不服。当时有流传的段子是Hinton的学生在台上讲paper时,台下的机器学习大牛们不屑一顾,质问你们的东西有理论推导吗?有数学基础吗?搞得过SVM之类吗?回头来看,就算是真的,大牛们也确实不算无理取闹,...转载 2019-03-02 19:15:27 · 158 阅读 · 0 评论 -
深度残差网络
深度残差网络在2015的ILSVRC比赛中获得取得第一的成绩,ICLR2016上也是重点议题之一。它主要思想很简单,就是在标准的前馈卷积网络上,加一个跳跃绕过一些层的连接。每绕过一层就产生一个残差块(residual block),卷积层预测加输入张量的残差。如下图所示:普通的深度前馈网络难以优化。除了深度,所加层使得training和validation的错误率增加,即使用上了ba...转载 2017-07-14 11:32:34 · 721 阅读 · 0 评论 -
对话CVPR2016:目标检测新进展
今天我与大家分享的是CVPR2016年会议中关于目标检测的部分相关工作,这一篇文章首先在 深度学习大讲堂 发出,这里算是转载吧,在此也给深度学习大讲堂做个广告。文章所提到的内容不涉及具体的实现细节,更多是从整个工作的出发点和解决问题的思路出发进行讨论,下边是具体的内容。2016年的CVPR会议目标检测(在这里讨论的是2D的目标检测,如图1所示)的方法主要是基于卷积神经网络的框架,代表性...转载 2017-07-05 10:04:38 · 812 阅读 · 0 评论 -
图像数据库
http://blog.youkuaiyun.com/qq_14845119/article/details/51913171ImageNet ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。是美国斯坦福的计算机科学家李飞飞模拟人类的识别系统建立的。能够从图片识别物体。目前已经包含14197122张图像,是已知的最大的图像数据库。每年的ImageN...转载 2017-06-20 14:32:50 · 4609 阅读 · 3 评论 -
YOLO v2之总结篇(linux+windows)
从下图可以看出,YOLOv2不管是速度还是精度都超过了SSD300,和YOLOv1相比,确实有很大的性能的提升。这名字也起的darknet,就跟黑魔法一样,是那么的奏效,不得不佩服老外的起名啊。论文思想篇:该论文为YOLO9000:Better, Faster, Stronger非常值得一看的论文。Better:batch Normalization:在卷基层后面...转载 2017-06-20 14:11:18 · 483 阅读 · 0 评论 -
2019计算机视觉领域顶级会议时间表
在计算机视觉领域,每年都会有很多顶级会议召开,如比较著名的CVPR,ICCV等,在会议上会有CV各个领域的新思想、新方法被提出来,推动着这个领域的发展,以下为2019年各个会议的时间地点,还有会议相关链接。1.IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2019)Location :Long Beach...转载 2019-03-04 18:39:00 · 574 阅读 · 0 评论 -
[行为检测] CDC-Convolutional-De-Convolutional Networks for Precise Temporal Action Localization
参考论文Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos,CVPR 2017内容介绍Abstract许多最先进的系统使用片段级分类器来选择和排列预先确定的边界的提议片段。然而,一个理想的模型应该超越片段级,并在适当的粒度上进行密集的...转载 2019-03-10 13:24:01 · 1850 阅读 · 0 评论 -
迁移学习的应用场景以及finetune的使用方法
这里简单介绍下什么是迁移学习,就是基于前已经学习到的知识应用到当前具体的任务需求上,而他们两者的领域并不是相同的,严谨说是不是直接相关的,比如任务是不同类型(如之前的分类猫和狗,而当前的可能是分类狮子和大象),或者数据集是不同类型的(如先前的数据是拍摄的自然真实动物的图像数据,而当前的数据是卡通,漫画的图像数据)。典型的可分为两大类情形:1是different domain, similiar t...转载 2019-04-19 17:20:02 · 1264 阅读 · 0 评论 -
ICML 2019 | Hinton等人新研究:如何更好地测量神经网络表示相似性
作者:Simon Kornblith、Mohammad Norouzi、Honglak Lee、Geoffrey Hinton参与:可可、路近期很多研究试图通过对比神经网络表示来理解神经网络的行为。谷歌大脑 Simon Kornblith、Geoffrey Hinton 等人的一项新研究引入了 centered kernel alignment (CKA) 作为相似性指数,并分析 CKA...转载 2019-05-27 12:56:14 · 2135 阅读 · 0 评论 -
论文分享--A Strong Baseline for Re-ID
https://zhuanlan.zhihu.com/p/65631409https://zhuanlan.zhihu.com/p/61831669分享最近读到的一篇论文Bag of Tricks and A Strong Baseline for Deep Person Re-identification,这篇文章对person reid问题中的训练技巧进行了一个很好的总结,并提出了一个...转载 2019-05-28 09:51:16 · 3158 阅读 · 0 评论 -
Bag of Tricks for Convolutional Neural Networks
https://zhuanlan.zhihu.com/p/51870052刚刚看了Bag of Tricks for Image Classification with Convolutional Neural Networks,一篇干货满满的文章,同时也可以认为是GluonCV 0.3: 超越经典的说明书,通过这个说明书,我们也拥有了超越经典的工具箱。我们都知道trick在CNNs中的重...转载 2019-05-28 11:03:31 · 371 阅读 · 0 评论 -
深度学习干货学习(2)—— triplet loss
https://blog.youkuaiyun.com/Lucifer_zzq/article/details/81271260一、Triplet结构:triplet loss是一种比较好理解的loss,triplet是指的是三元组:Anchor、Positive、Negative:整个训练过程是: 首先从训练集中随机选一个样本,称为Anchor(记为x_a)。 然后再随机选取...转载 2019-05-28 15:21:44 · 4418 阅读 · 0 评论 -
GPU 显存不足怎么办?
前言最近跑的模型都比较大,尤其是Bert, 这真的是难为我 1080ti 了, 在Bert的Example中,官方提供了一些 Trick 来帮助我们加速训练,很良心, 但感觉还不够,于是花费一些时间整理出一个 Trick 集合,来帮助我们在显存不足的时候来嘿嘿嘿。本文分为两大部分,第一部分引入一个主题:如何估计模型所需显存, 第二个主题:GPU显存不足时的各种 Trick 。监控 GP...转载 2019-06-05 23:36:08 · 24860 阅读 · 8 评论 -
NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING 笔记
这是一篇使用增强学习来进行模型搜索的论文。结构如下图:overview由于不知道网络的长度和结构,作者使用了一个RNN作为控制器,使用该控制器来产生一串信息,用于构建网络。之后训练该网络,并用网络的accuracy作为reward返回给控制器来更新控制器的参数,达到更优的策略。其中控制器(RNN)的设计借鉴了sequence to sequence的思想,不同的是它优化的是一...转载 2019-07-08 16:04:02 · 623 阅读 · 0 评论 -
Deep Reinforcement Learning 深度增强学习资源 (持续更新)
https://zhuanlan.zhihu.com/p/20885568Deep Reinforcement Learning深度增强学习可以说发源于2013年DeepMind的Playing Atari with Deep Reinforcement Learning 一文,之后2015年DeepMind 在Nature上发表了Human Level Control through ...转载 2019-07-11 11:32:52 · 1173 阅读 · 0 评论 -
拉普拉斯金字塔分解及图像融合
单图像求高斯金字塔和拉普拉斯金字塔高斯金字塔设高斯金字塔第l层图像Gl所做操作:即当前层是上一层的高尺度图像先高斯滤波,再降采样。下采样过程这里,N为层数。Rl为l层行数。w(m,n)是5*5二维可分离高斯滤波器。拉普拉斯金字塔分解目的是将源图像分别分解到不同的空间频带上,相当带通滤波构造过程:第l层为高斯金字塔l层与l+1层图像经过内插放大后图像的差。上采样...转载 2019-04-25 23:47:50 · 3133 阅读 · 0 评论 -
图像金字塔(Python实现)
图像金字塔(Python实现)1 简介在图像处理中常常会调整图像大小,最长的就是放大(zoom in)和缩小(zoom out),尽管集合变换也可以实现图像放大或者缩小一个图像金字塔式一系列的图像组成,最底下一张式图像尺寸最大,最上方的图像尺寸最小,从空间上从上向下看,就可以看成埃及金字塔.高斯金字塔–用来对 图像进行降采样拉普拉斯金字塔–用来重建一张图片根据他的上层降采样图片2 高斯...转载 2019-04-25 23:15:13 · 5193 阅读 · 0 评论 -
CAM方法获取显著图:基于pytorch的实现
CAM方法获取显著图:基于pytorch的实现1、下载代码 2、具体代码 (1)导入需要的模块 (2)具体代码详解 (3)生成结果 转:CAM实践:基于pytorch的使用方法原文地址:https://cloud.tencent.com/developer/article/1370937非原创,直接copy的网上的,懒得打字,不喜勿喷1、下载代码git clone...转载 2019-04-25 22:49:13 · 2763 阅读 · 2 评论 -
深度学习中常见的优化方法(from SGD to AMSGRAD)和正则化技巧
https://mp.weixin.qq.com/s/NmSVXezxsQOZzK8pne3pCw参加完华为的软件挑战赛之后,五一也没啥事,于是就想着写点东西吧!在总结完了分类网络和检测网络得结构之后,是时候对深度学习当中的优化和正则化方法做一个总结了,本文总结顺序是我上的深度学习课程,包括车老师的第二讲和吴恩达的深度学习课程,李沐的一起动手学深度学习,花书《深度学习》还有魏秀参博士的《解析卷...转载 2019-03-14 22:45:15 · 1056 阅读 · 0 评论 -
两篇论文之CNN中正交操作
CNN的权值正交性和特征正交性,在一定程度上是和特征表达的差异性存在一定联系的。 下面两篇论文,一篇是在训练中对权值添加正交正则提高训练稳定性,一篇是对特征添加正交性的损失抑制过拟合。第一篇:Orthonormality RegularizationXie D, Xiong J, Pu S. All You Need is Beyond a Good Init: Exploring ...转载 2019-03-07 18:29:09 · 238 阅读 · 1 评论 -
机器学习中防止过拟合的处理方法
原文地址:一只鸟的天空,http://blog.youkuaiyun.com/heyongluoyao8/article/details/49429629防止过拟合的处理方法过拟合 我们都知道,在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布(i.i.d,independently and identically distributed),即当前已产生的数据可以对未...转载 2019-03-07 23:27:36 · 1724 阅读 · 0 评论 -
focal loss
Focal Loss for Dense Object Detection首先,需要了解交叉熵是怎么工作的: https://blog.youkuaiyun.com/tsyccnh/article/details/79163834本文的核心公式如下:借用上面博客中的概率表:* 猫 青蛙 老鼠Label 0 1 0Pred 0.3 ...转载 2019-03-18 19:15:06 · 1976 阅读 · 2 评论 -
人脸特征点检测basic:MTCNN原理
最近看起来特征点这一块,复习了一下经典论文Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks,文中的主要思想是使用了级联网络,其实就是一种从粗到细的处理方法,同时利用人脸检测任务和人脸分类任务来辅助人脸关键点检测。以及online hard sample mining的思想来提升表现...转载 2019-03-18 23:50:23 · 899 阅读 · 0 评论 -
多目标跟踪:SORT和Deep SORT
https://zhuanlan.zhihu.com/p/59148865多目标跟踪,即Multiple Object Tracking(MOT),主要任务中是给定一个图像序列,找到图像序列中运动的物体,并将不同帧的运动物体进行识别,也就是给定一个确定准确的id,当然这些物体可以是任意的,如行人、车辆、各种动物等等,而最多的研究是行人跟踪,由于人是一个非刚体的目标,且实际应用中行人检测跟踪更具...转载 2019-03-18 23:59:17 · 23048 阅读 · 5 评论 -
深度卷积神经网络CNN中shortcut的使用
导语shortcut(或shortpath,中文“直连”或“捷径”)是CNN模型发展中出现的一种非常有效的结构,本文将从Highway networks到ResNet再到DenseNet概述shortcut的发展。前言 自2012年Alex Krizhevsky利用深度卷积神经网络(CNN)(AlexNet [1])取得ImageNet比赛冠军起,CNN在计算...转载 2019-03-31 13:01:06 · 12464 阅读 · 2 评论 -
利用pytorch实现Visualising Image Classification Models and Saliency Maps
saliency mapsaliency map即特征图,可以告诉我们图像中的像素点对图像分类结果的影响。计算它的时候首先要计算与图像像素对应的正确分类中的标准化分数的梯度(这是一个标量)。如果图像的形状是(3, H, W),这个梯度的形状也是(3, H, W);对于图像中的每个像素点,这个梯度告诉我们当像素点发生轻微改变时,正确分类分数变化的幅度。计算saliency map的时候,需...转载 2019-04-25 22:45:05 · 1256 阅读 · 0 评论