CS231N-5-Convolutional Neural Networks

部署运行你感兴趣的模型镜像

Preface

The title of the class.
上节课是神经网络的基本框架,一层层layer的堆积,每层都是简单的linear+RELU,这显然是不够的。在图像处理上,convolutional layer比较管用。

现在我们先介绍CNN的历史。忽略远古时期,直接看两篇标志性的论文。
1998年LeCun发表了bp算法在zipcode recognization上的应用。由于硬件资源和数据集,只是在zipcode上。不过算法本身已经成熟。
LeNet
这里写图片描述
2012年Alex发表了Imagenet的论文,标志着大数据GPU的CNN时代。simiar to Lecun, just scaled. with huge amounts of images by GPU.
AlexNet
这里写图片描述

CV的应用
这里写图片描述
这里写图片描述
这里写图片描述

注意CV的应用也是分级别的,有难易的。参照face++研究员所说,最简单的是classfication对象是整张照片,顺便实现retrieval图片检索;稍难的是detection对象是region,检测出照片中的主要物体;更难的是segmentation对象是pixel,对每个像素有个归属;最难的好像有几个版本,一是sequence对象是视频,建立在detection基础上动态一帧帧地检测物体的运动,从而实现自动驾驶,二是language对象是region和自然语言,建立在detection和NLP/RNN基础上,合成一句caption,三是生成图片,如GAN,要求逼真清晰,可以仿照真人的real-time表情合成表情包(iphone X),或者按照要求生成一段视频。

Process

正如之前说的,CS231N不数学,只是让你有个general idea,所以讲的比较粗略。

CNN是由若干层convolutional layer(with RELU/pooling)配上最后一层——全连接层fully connected(即为Wx+b得出最终的概率向量)。于是重点就是卷积层。

这是卷积层的构造。卷积的定义这里淡化了。filter是个depth喝Image相同的卷积核,和Image作卷积,通过slide over the spatial locations遍历整张图片(和一小块size相同的区域作卷积),得到一层薄薄的activation map。
这里写图片描述

于是一个filter形成一个平面activation map,多个filter就得到activation maps.

这里写图片描述

于是一个简单的CNN就搭好了。Image变为不同size的,根据filter的数量。

这里写图片描述

而CNN由浅入深的每一层提取的feature是从简单到复杂, low-level to high-level

这里写图片描述

Convolutional layer

有很多参数。

首先是stride步长。这是filter扫过image是遍历的间距,公式很容易推导。有时为了更好地处理edge,人为添加zero padding,这样就完整了。
这里写图片描述
这里写图片描述

简单的练习。每个filter是个3d的参数。然后加上Bias。
这里写图片描述
这里写图片描述

卷积层的所有参数都已列出。filter的体积和个数,bias,stride,pad。

这里写图片描述

Pooling layer

pooling是一种downsampling技术,为了保留关键值,也为了减少参数(更快,减少过拟合)。通常是Max pooling,至于average pooling被弃用,之前说过了。pooling的参数就是stride和filter,通常是2*2.
这里写图片描述
这里写图片描述
这里写图片描述

Fully Connected Layer

最后一层,输出概率向量。所有的架构都已清晰标明。
这里写图片描述

这里写图片描述

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.9

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型

深度学习-面向视觉识别的卷积神经网络,2016斯坦福大学公开课。课程介绍: 计算机视觉在社会中已经逐渐普及,并广泛运用于搜索检索、图像理解、手机应用、地图导航、医疗制药、无人机和无人驾驶汽车等领域。而这些应用的核心技术就是图像分类、图像定位和图像探测等视觉识别任务。近期神经网络(也就是“深度学习”)方法上的进展极大地提升了这些代表当前发展水平的视觉识别系统的性能。 本课程将深入讲解深度学习框架的细节问题,聚焦面向视觉识别任务(尤其是图像分类任务)的端到端学习模型。在10周的课程中,学生们将会学习如何实现、训练和调试他们自己的神经网络,并建立起对计算机视觉领域的前沿研究方向的细节理解。最终的作业将包括训练一个有几百万参数的卷积神经网络,并将其应用到最大的图像分类数据库(ImageNet)上。我们将会聚焦于教授如何确定图像识别问题,学习算法(比如反向传播算法),对网络的训练和精细调整(fine-tuning)中的工程实践技巧,指导学生动手完成课程作业和最终的课程项目。本课程的大部分背景知识和素材都来源于ImageNet Challenge竞赛。 主讲人: 李飞飞,斯坦福大学计算机科学系副教授。担任斯坦福大学人工智能实验室和视觉实验室主任,主要研究方向为机器学习、计算机视觉、认知计算神经学。她在TED上的演讲,如何教计算机理解图片。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值