
深度学习
文章平均质量分 79
linolzhang
资深产品经理,系统架构师,PMP,PMI-ACP敏捷开发专家,个人主要研究领域为 AI、AR、3D Visualization。
展开
-
人群密度估计-Crowd Density
一. 应用背景 在安防大背景下,对敏感区域人流量的管控是一个重要的课题,防止人群骚乱、踩踏现象的发生,对非预期的人员汇聚进行预警等等,最常用的方法是检测到每个目标,然后借助 Perspective 矩阵完成到实际位置的映射,当然,在目标很难检测的情况下(密度极大、遮挡严重),基于回归的方法就派上了用场。 本节主要讲基于深度学习的回归方法来实现人群密度检测。二. 人群密度之 Cr原创 2017-12-18 23:47:49 · 18345 阅读 · 7 评论 -
语义分割网络之PSPnet
一.提出背景 基于FCN全卷积网络的分割面临诸多问题,这篇文章从多尺度入手,提出了金字塔模型来提取多尺度的信息,达到了 State-of-the-art 的结果 论文:PSPnet:Pyramid Scene Parsing Network 【点击下载】 Caffe代码:【Github】二.算法框架 算法细节比较多,这里我主要强调以下几个关键点:原创 2017-11-14 22:53:55 · 11391 阅读 · 3 评论 -
轻量级网络 - PVANet & SuffleNet
一. PVANet 论文:PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection 【点击下载】 Caffe代码:【Github】 设计了一种轻量级的网络,取名叫 PVANet,特点是 Channel少、Layer多,在 VOC2007 和 VOC2012 精确原创 2017-07-28 23:56:22 · 8447 阅读 · 3 评论 -
深度网络模型压缩 - CNN Compression
一. 技术背景 一般情况下,CNN网络的深度和效果成正比,网络参数越多,准确度越高,基于这个假设,ResNet50(152)极大提升了CNN的效果,但inference的计算量也变得很大。这种网络很难跑在前端移动设备上,除非网络变得简洁高效。 基于这个假设,有很多处理方法,设计层数更少的网络、更少的卷积和、每个参数占更少的字节,等等。 前面讲过的 PVANet、原创 2017-10-13 23:22:39 · 10648 阅读 · 0 评论 -
视频人员行为识别(Action Recognition)
一. 提出背景 目标:给定一段视频,通过分析,得到里面人员的动作行为。 问题:可以定义为一个分类问题,通过对预定的样本进行分类训练,解决一个输入视频的多分类问题。 这里提出的问题是简单的图片(视频)分类问题,该问题的前提条件是:场景目标为单人,并且占据图片比较大的比例,如下图所示: 还有一类问题是基于行人检测,去估计行人的姿态和动作,原创 2017-09-19 21:28:28 · 17996 阅读 · 7 评论 -
Mark 一些有意思的深度学习方向
1. VQA Visual Question Answering,给出一张图片,就该图片提出任何问题?自动get到你所期望的答案。这属于Visual Reasoning 的范畴,学者们不满足于传统的图像识别、分割、Caption等工作,尝试去挖掘更高级的机器推理能力。来看解决思路,CNN、LSTM(RNN)、Attention Model、BOW,都是图像、文本、NLP领域的通用手法,原创 2017-09-08 22:35:56 · 5205 阅读 · 0 评论 -
NoScope:极速视频目标检测
一.提出背景 在基于CNN的方法提升到一个很高的准确度之后,效率又成为人们所关注的话题,目前兼备准确度和效率的方法包括 SSD、YOLO v2,其检测效率通常能到达 30-100FPS,而这里面的代价就是上万块的显卡,这个代价是相当高的。当下视频获取设备(CCTV摄像头)成本通常是几百块,而采用上述分类算法,其成本可能是几千,这就是视频获取和视频分析之间的巨大鸿沟。 基于此原创 2017-08-29 23:22:04 · 9996 阅读 · 1 评论 -
对抗网络之目标检测应用:A-Fast-RCNN
对抗网络之目标检测应用:A-Fast-RCNN 论文:A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection 【点击下载】 Caffe代码:【Github】一. 深度学习正确的打开方式 深度学习的根基在于样本,大量的样本决定了深度网络的精确度和收敛性,针对样本的挖掘是深度学原创 2017-08-05 00:21:16 · 9642 阅读 · 1 评论 -
DenseNet:更接近于真实神经网络的跨层连接
一. 提出背景 论文:Densely Connected Convolutional Networks 【点击下载】 Caffe代码:【Github】 受 Highway、ResNet 等算法思路的启发,提出一种跨层的连接网络,思路非常简单,直接上图: 二. 算法思路 作者这个提法比较大胆,每个层的 input 包括之前所有层的信息,通原创 2017-08-16 22:11:08 · 10271 阅读 · 2 评论 -
特征金字塔网络 FPN
一. 提出背景 论文:Feature Pyramid Networks for Object Detection 【点击下载】 在传统的图像处理方法中,金字塔是比较常用的一种手段,像 SIFT 基于金字塔做了多层的特征采集,对于深度网络来讲,其原生的卷积网络特征决定了天然的金字塔结构。深度网络在目标检测领域的应用 比如早期的 Fast RCNN,Faster RCNN 都原创 2017-07-21 22:18:10 · 10286 阅读 · 1 评论 -
目标检测-RCNN系列
• RCNN RCNN(Regions with CNN features)是将CNN方法应用到目标检测问题上的一个里程碑,由年轻有为的RBG大神提出,借助CNN良好的特征提取和分类性能,通过RegionProposal方法实现目标检测问题的转化。 算法可以分为四步: 1)候选区域选择 Region Proposal是一类传统的区域提取方原创 2017-01-11 16:26:12 · 72851 阅读 · 12 评论 -
深度学习基础之 - 行人检测SSD
Faster-RCNN 虽然在效果上做到了 State-Of-The-Art,但效率问题无法做到实时,YOLO 在此基础上提出了改进:一. Region Proposal Region Proposal 过程的优点是能够初步检测有效的 Candidate,缺点是带来效率的降低(Faster构造了两级网络)。 YOLO去掉了 Faster的 RPN ...原创 2017-02-16 22:39:58 · 18845 阅读 · 4 评论 -
Anchor Free检测算法之FCOS
一.提出背景2019 是 Anchor Free 大行其道的一年,从CornerNet 到 ExtremeNet,从FSAF到FCOS,层出不穷。论文:FCOS: Fully Convolutional One-Stage Object Detection【paper】【github】二.算法框架FCOS框架比较简单,架构图参考:基础backbone是一个3层的卷积网络(对...原创 2019-06-16 22:05:11 · 2645 阅读 · 1 评论 -
CVPR2019-目标检测分割技术进展
CVPR 2019 没有出现像Faster RCNN,YOLO这种开创性的工作,基于现有方案和框架的改进为主,技术进步着实有些缓慢,或许也代表方案逐步趋于成熟。 本文重点介绍如下几个改进方法:GA-RPN GIOU FSAF Mask Score RCNN1. GA-RPN GA-RPN由港中文、商汤和亚马逊联合提出,COCO Challeng...原创 2019-05-11 22:46:29 · 3195 阅读 · 1 评论 -
CVPR2019-实例分割Mask Scoring R-CNN
今年的Oral,在coco数据集表现超过了Mask RCNN,来自地平线的华科实习生。论文:Mask Scoring R-CNN【paper】【github】1. 提出背景 Mask RCNN 提出以来,一直是作为经典霸屏,但这里面一直存在一个严重的问题,那就是其score机制: 由于沿用了Faster RCNN 的 class和box,对应class是类别sco...原创 2019-05-24 23:01:19 · 3323 阅读 · 0 评论 -
Tensorflow object detection API训练自己的数据
一. 安装 Tensorflow object detection api是tensorflow官方出品的检测工具包,集成了像ssd、faster rcnn等检测算法,mobilenet、inception、resnet等backbone和fpn、ppn等方法,各模块之间能够通过组合的方式来work。 Github下载地址:https://github.com/tensorfl...原创 2019-02-12 23:33:43 · 15814 阅读 · 6 评论 -
OCR文字识别(2)
一. 文字识别 文字识别是指在确定检测框之后,识别出对应的文字,文字识别的方法有很多,包括:1)基于分割后单个字符的分类;2)基于序列的CNN方法,包括 基于STN矫正,CTC loss,Attention机制等策略;3)基于one step的检测-识别方法,比如fots、Radical Analysis Network;二. Attention Model ...原创 2019-02-07 10:25:33 · 982 阅读 · 0 评论 -
OCR文字识别(1)
一. 研究背景 文字识别是CV领域应用最广,最接地气的方向之一,从证件识别到智慧医疗,从拍照识别到无人驾驶,从车牌识别到物流分拣,几乎涵盖了AI的所有场景。 通常文字识别分成两步,文本位置检测 + 识别。 > 论文参考: 【场景文本位置感知与识别】 > 常用数据集:数据集名称 内容说明 下载 中...原创 2018-09-20 00:37:12 · 7380 阅读 · 1 评论 -
基础网络架构探究之DiracNets
CNN研究者总是面临一个共同的话题:如何提升神经网络的表达能力?分两个方向去探讨:1)拉长增加网络层数是最直观的一种方法,但这种方法所面临的是 梯度消失问题,网络越深,梯度的回传越困难。基于此,MSRA提出了ResNet,通过skipconnection的方式,通过残差思想很好的解决了这个问题。可以参考论文:Deep Residual Learning forImage Recognition这一...原创 2018-03-28 02:11:08 · 4179 阅读 · 0 评论 -
Facebook开源检测工具包 Detectron (by Caffe2)
一. Detectron 特征 大名鼎鼎的 FAIR 开发的软件包,可以从【github】了解一下。 个人感觉比较有用的是 基于 ResNet 基础框架的 Faster RCNN和Mask RCNN。 Detectron 基于 Caffe2(貌似被诟病的不轻),就目前阶段来看,caffe2 还有待于完善(pytorch也是一个意思),其工程化程度远不如 T...原创 2018-02-02 23:31:55 · 5405 阅读 · 1 评论 -
目标检测 - Tensorflow Object Detection API
一. 找到最好的工具 “工欲善其事,必先利其器”,如果你想找一个深度学习框架来解决深度学习问题,TensorFlow 就是你的不二之选,究其原因,也不必过多解释,看过其优雅的代码架构和工程化实现之后,相信这个问题不会有人再提,这绝非 Caffe an so on 所能比拟的。 回到题头 - 目标检测,相信你一定看过这篇 Paper: Speed/accuracy trade原创 2017-06-25 23:04:05 · 31679 阅读 · 20 评论 -
TensorRT深度学习推理框架介绍
一. 产生背景 深度学习的发展带动了一批深度学习框架,caffe、tensorflow、pytorch等,对于计算量庞大的CNN,效率一直是大家所关注的,接触过深度网络压缩的同学应该知道网络压缩最关键的两个思路,剪枝和量化。 TensorRT就是量化,将FP32位权值数据优化为 FP16 或者 INT8,而推理精度不发生明显的降低。 关于TensorRT首先要...原创 2018-01-16 23:52:37 · 20009 阅读 · 2 评论 -
迁移学习:经典算法解析
一. 了解迁移学习 迁移学习(Transfer Learning)目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。 > The ability of a system to recognize and apply knowledge and skills learned in previous tasks to novel tasks。原创 2017-06-16 23:08:41 · 67564 阅读 · 11 评论 -
浅入浅出TensorFlow 2 - 零基础安装
对一个框架的熟悉过程是从安装开始,今天就带大家熟悉这里面的 第一道坎 - 安装。 TensorFlow 安装方式总结为:一. Pip安装步骤: 1)安装 Pip Pip是目前使用最多的Python包管理工具。通常Linux和Mac是自带Python环境的(2.X版本,附带pip),如果系统没有安装Python环境,或者你需要使用Python原创 2017-04-14 21:48:18 · 4742 阅读 · 2 评论 -
Faster R-CNN改进篇(二): RFCN ● RON
@改进1:RFCN 论文:R-FCN: Object Detection via Region-based Fully Convolutional Networks 【点击下载】 MXNet代码:【Github】一. 背景介绍 RCNN 在目标检测上取得了很大的成功,比如 SPPnet、Fast R-CNN、Faster R-CNN 等,这些方法的典型特征原创 2017-07-15 01:15:40 · 18865 阅读 · 3 评论 -
Faster R-CNN改进篇(一): ION ● HyperNet ● MS CNN
一. 源起于Faster 深度学习于目标检测的里程碑成果,来自于这篇论文: Ren, Shaoqing, et al. “Faster R-CNN: Towards real-time object detection with region proposal networks.” Advances in Neural Information Processing Syst原创 2017-07-02 23:31:36 · 17263 阅读 · 7 评论 -
基于视频的目标检测
一. 提出背景 目标检测在图像处理领域有着非常大的占比,过去两年,深度学习在Detection的持续发力,为这个领域带来了变革式的发展:一方面,从 RCNN 到 Fast RCNN,再到 Faster RCNN,不断刷新 mAP;另一方面,SSD、YOLO 则是将性能提高到一个非常高的帧率。 对于视频来讲,相邻帧目标之间存在 明显的上下文关系,这种关系在技术上的表现就是 T原创 2017-07-11 23:05:04 · 34733 阅读 · 10 评论 -
图像分割与FCN
一. 图像语义分割 传统的图像分割方法主要包括以下几种:1)基于边缘检测2)基于阈值分割 比如直方图,颜色,灰度等3)水平集方法 这里我们要说的是语义分割,什么是语义分割呢?先来看张图: 将目标按照其分类进行像素级的区分,比如区分上图的 摩托车 和 骑手,这就是语义分割,语义分割赋予了场景理原创 2017-05-11 21:55:24 · 27010 阅读 · 0 评论 -
深度学习的研究方向和发展趋势
一. 人工智能应用领域1. 计算机视觉 生物特征识别:人脸识别、步态识别、行人ReID、瞳孔识别; 图像处理:分类标注、以图搜图、场景分割、车辆车牌、OCR、AR; 视频分析:安防监控、智慧城市;2. 自然语言处理 语音识别(Siri、Cortana、讯飞)、文本数据挖掘、文本翻译;3. 数据挖掘 消费习惯、天气数据、推荐系统、知识库(专家系统);4. 游戏 角原创 2017-07-07 23:07:22 · 35048 阅读 · 19 评论 -
浅入浅出TensorFlow 4 - 训练CIFAR数据
一. CIFAR数据集 CIFAR数据集是一个经典的数据集,提供两个版本的分类样本,CIFAR-10和CIFAR-100。 CIFAR-10 提供10类标注数据,每类6000张(32*32),其中5000张用于训练,1000张用于测试。 获取数据集的方法: git clone https://github.com/tensorflow/model原创 2017-04-17 22:11:40 · 2888 阅读 · 5 评论 -
浅入浅出TensorFlow 9 - 代码框架解析
一. TensorFlow 源码 截止到目前为止,TensorFlow 在 Github 的 Contributors 已经接近900人,Fork 30000次。 学习这么庞大的开源项目,首先必须要搞清楚其代码组织形式,我们先来看目录结构: Project 目录分为4个:1)tensorflow 核心代码目录,图中原创 2017-04-26 23:21:41 · 4847 阅读 · 0 评论 -
深度学习进阶之路 - 从迁移学习到强化学习
一. 深度学习及其适用范围 大数据造就了深度学习,通过大量的数据训练,我们能够轻易的发现数据的规律,从而实现基于监督学习的数据预测。 没错,这里要强调的是基于监督学习的,也是迄今为止我在讲完深度学习基础所给出的知识范围。 基于卷积神经网络的深度学习(包括CNN、RNN),主要解决的领域是 图像、文本、语音,问题聚焦在 分类原创 2017-06-06 23:17:44 · 19581 阅读 · 0 评论 -
基于深度学习的Person Re-ID(综述)
一. 问题的提出 Person Re-ID 全称是 Person Re-Identification,又称为 行人重检测 or 行人再识别,直观上可以通过两种思路进行比对,一种是 通过 静态图像(still-image)进行特征比对,另一种是通过视频的时序特征(temporal)进行 Video Re-Id。 不管是采用 图像特征比对的方法 还是 结合时序特征比原创 2017-05-01 22:09:17 · 22606 阅读 · 1 评论 -
浅入浅出TensorFlow 7 - 行人检测之Faster-RCNN
一. 环境准备 本文通过 TensorFlow 实现基于 Faster-RCNN 的行人检测,网络模型基于 VGG16 or ResNet。1. 准备 TensorFlow 环境 Tensorflow (>= 1.0.0) 安装对应 python 库: sudo apt-get install cython python-opencv s原创 2017-04-20 22:06:49 · 28334 阅读 · 30 评论 -
基于深度学习的Person Re-ID(度量学习)
度量学习 是指 距离度量学习,Distance Metric Learning,简称为 DML,做过人脸识别的童鞋想必对这个概念不陌生,度量学习是Eric Xing在NIPS 2002提出。 这并不是个新词,说的直白一点,metric learning 是通过特征变换得到特征子空间,通过使用度量学习,让类似的目标距离更近(PULL),不同的目标距离更远(push),也就是说,度量学原创 2017-05-06 00:38:55 · 8183 阅读 · 0 评论 -
深度学习流行网络与数据集
一. 常用网络 深度学习相关的几个比较著名的网络,AlexNet、VGG、GoogleNet、ResNet。模型 AlexNet VGG GoogleNet ResNet 时间 2012 2014原创 2017-03-02 22:35:25 · 2509 阅读 · 0 评论 -
深度学习基础
AI技术研究的兴起,伴随着两种最直观的思维技巧,即遗传算法与神经网络,这是对生物学研究最直观的技术抽象。深度学习的前身就是神经网络,这个80年代灵光乍现的技术,在那一波人工智能的大潮驱使下,带着人们对于未来AI时代的憧憬,迅速蔓延,一时风头无两,和今天深度学习的火热几乎如出一辙。 某乎友的观点给出了这两种技术的鲜明对比,如同麻汁与芝麻酱,换汤不换药,所谓深度在于把二两变成了三斤,原创 2017-01-11 14:45:18 · 4480 阅读 · 0 评论 -
浅入浅出TensorFlow 1 - 初识TensorFlow
一. TensorFlow 的发展历程 OpenCV 可能是多数人都很熟悉的计算机视觉库,参考下图机器学习库的发展轴线。 近几年,随着深度学习技术的快速发展,诞生了 Torch、Theano、Caffe、MxNet 等一批深度学习库,而 TensorFlow 正是这些框架中的佼佼者,得益于其 优秀的架构设计理念及工程实现,以及丰富的学习资料,目前 TensorFlo原创 2017-04-14 21:28:06 · 3850 阅读 · 0 评论 -
浅入浅出TensorFlow 3 - MNIST手写体识别
MNIST 手写体识别通常是神经网络入门的一个例子,每个deep框架 都无例外。一. MNIST数据 MNISt 为 0-9的手写阿拉伯数字,提供了6万的 训练集数据(mnist.train) 和 1万的 测试集数据(mnist.test)。 下载地址:http://yann.lecun.com/exdb/mnist/index.html原创 2017-04-17 22:00:45 · 2477 阅读 · 1 评论 -
目标跟踪之ECO:Efficient Convolution Operators for Tracking
一. 相关滤波算法总结 作者首先分析了影响 相关滤波算法 效率的几个原因:1)Model Size (模型大小) 包括两个方面: - 模型层数,对应多分辨率 Sample,比如多层 CNN - 特征维度,对应庞大的 HOG or CNN特征图 这里的效率影响是显而易见的,层数或特征越多,表现力越丰富,计算量也原创 2017-05-31 23:13:23 · 15085 阅读 · 4 评论