[2022]李宏毅深度学习与机器学习第三讲(选修和必修)听课笔记

本文档记录了李宏毅深度学习与机器学习课程中关于CNN的理解与应用,包括神经元视角的故事、过滤器视角的故事、池化的作用及其实现方式,并介绍了Spatial Transformer层在处理图像旋转和放缩方面的应用。

[2022]李宏毅深度学习与机器学习第三讲(选修和必修)听课笔记

做笔记的目的

1、监督自己把50多个小时的视频看下去,所以每看一部分内容做一下笔记,我认为这是比较有意义的一件事情。
2、路漫漫其修远兮,学习是不断重复和积累的过程。怕自己看完视频不及时做笔记,学习效果不好,因此想着做笔记,提高学习效果。
3、因为刚刚入门深度学习,听课的过程中,理解难免有偏差,也希望各位大佬指正。

CNN

如何理解CNN

Neuron Version Story

在这里插入图片描述
我们看这张图片是否是鸟,主要看的是一些局部信息就可以判断。之前说过全连接的弹性非常大,所以为了让架构的弹性变小,可以让每个神经元只连接一些信息,这样神经元就只关注了局部信息。
在这里插入图片描述
在这里插入图片描述
receptive field可大可小,同时也可以只考虑某个channel,也可以不是正方形。
在这里插入图片描述
特征可能会在不同的地方,这样可能就会出现重复工作,所以可以通过共享参数来让模型变小,防止过拟合,这样就可以限制模型弹性了
在这里插入图片描述
在这里插入图片描述

Filter Version Story

用Filter去抓取pattern
在这里插入图片描述
两种解释都是一个故事,不同角度
在这里插入图片描述

pooling

在这里插入图片描述
把大的图片缩小,不会影响图像的改观,所以可以用pooling来减少计算复杂度,也可以理解为图像去掉奇数行,把偶数行拼接在一起之后,图像变化不是很大。所以现阶段计算能力比较强,所以pooling在很多工作中被删除了。同时pooling在一些特定领域也不会被用到,比如围棋,因为围棋缩小之后,就变了。

整体架构

CNN的经典架构
在这里插入图片描述
CNN的应用
在这里插入图片描述
因为不符合用pooling的条件,所以就没有用pooling,他的结构如下图,所以就可以看到没有pooling层,以后在具体应用中也要注意要不要用pooling。
在这里插入图片描述
虽然CNN已经很强大了,但是仍然有不足,比如不能应对图片的放缩和旋转问题,所以需要进行改进。
在这里插入图片描述

Spatial Transformer

特别的但是有用的架构
CNN不能处理图像的旋转和放缩(数据增量可以一定程度解决这一点),所以Spatial Transformer Layer 就是加在CNN的前面,提取出感兴趣的特征,在放进CNN里面。
在这里插入图片描述
在这里插入图片描述
weight做不同的设计,就可以实现旋转缩放,让其变成矩阵运算,然后放到网络里去学习。
在这里插入图片描述
算出的结果可能是小数,如何四舍五入就不能微分,所以按照下面做,用四个值来近似。
在这里插入图片描述
这一项技术不止可以用在CNN前面,其实也可以用在别的地方,甚至两个一起用,生成两个框,来进行识别。
在这里插入图片描述
一些例子
在这里插入图片描述
两个框
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值