全连接层
多层感知机十分适合处理表格数据,行对
应样本,列对应特征。
通过将图像数据展平成一维向量而忽略了每张图像的空间结构信息。
猫狗分类
使用一个还不错的相机采集RGB图片(3600万个像素)
使用100个神经元单隐含层的MLP,模型有36亿个参数
远超过地球上的狗和猫的数量
使用卷积神经网络可大大降低参数量: 共享参数机制、多种池化方法
沃尔多游戏
沃尔多游戏(Where's Waldo? )是一种视觉寻找游戏,玩家需要在一幅充满众多相似人物或复杂场景元素的图片中找出特定角色沃尔多(Waldo)。
waldo在哪
两个原则
平移不变性
(就像在沃尔多游戏中,无论沃尔多出现在图片的哪个位置,我们都要能把他找出来。)
不管检测对象出现在图像中的哪个
位置 ,神经网络的前面几层都应该
对相同的图像区域具有相似的反应
局部性
(在沃尔多游戏图片里,我们不需要一下子看完整张复杂的图,而是可以先聚焦在局部区域去寻找。)
神经网络的前面几层应该只探索输
入 图像中的局部区域,而不过度在意国像中相隔较远的区域的笑素。
图像卷积
卷积层
核
偏差b:bER
输出矩阵
W和b是可学习的参数
卷积层对输入和卷积核进行互相关运算,并在添加标量偏置之后产生输出
概念
核:即卷积核,是可学习的参数矩阵,决定了对输入图像特征提取的方式。
偏差 b:是一个标量值,属于可学习参数,在卷积运算结果基础上加上偏差得到最终输出。
输出矩阵:通过输入和卷积核的互相关运算,并添加标量偏置后产生。
例子
边缘检测:使用特定卷积核(如 [[-1,-1,-1],[-1,8,-1],[-1,-1,-1]] ),可以突出图像中物体的边缘信息。
锐化:相应卷积核(如 [[0,-1,0],[-1,5,-1],[0,-1,0]] )能增强图像的细节,使图像看起来更清晰。
高斯模糊:利用高斯卷积核(如 1/16×[[1,2,1],[2,4,2],[1,2,1]] )对图像进行平滑处理,减少噪声 。
多通道卷积层
总结
卷积层将输入和卷积核进行交叉相关,加上偏移后得到输出
核矩阵和偏移是可学习的参数
核矩阵的大小是超参数
填充和步幅
填充
给定输入图像 (32×32)
应用5×5大小的卷积核
第1层得到输出大小28x28
第7层得到输出大小4×4
更大的卷积核可以更快地减小输出
形状从减少到
通过填充,可以保持输出矩阵尺寸与输入相近或满足特定需求,避免因多次卷积使特征图尺寸不断减小。
填充:在输入周围添加额外的行/列
通常情况下,填充的元素取值为 0
步幅
给定输入大小224*224,在使用5*5卷积核的情况下,需要55层将输出降低
到4*4
需要大量的计算
步幅是指行/列的滑动步长
例:高度3 宽度2的步幅
总结
填充和步幅可以改变输出的高度和宽度
填充在输入周围添加额外的行/列,增加输出的高度和宽度
步幅是每次滑动核窗口时的行/列的步长,可以成倍的减少输出形状
填充和步幅可用于有效地调整数据的维度
多个输出和输出通道
彩色图像可能有 RGB三个通道
转换为灰度会丢失信息
在处理这类图像时,卷积操作会针对每个通道分别进行。每个通道都有对应的卷积核,最终输出是所有通道卷积结果之和。
每个通道都有一个卷积核,结果是所有通道卷积结果的和
池化层
平均池化层:
将最大池化层中的“最大”操作替换为“平均”