09.CNN基础

本文主要介绍卷积神经网络(CNN)的基础知识。CNN主要用于计算机视觉任务,也可用于语音识别。文章阐述了CNN的工作方式,解释了卷积的概念,即对图像特征的提取。还介绍了CNN的基本架构,包括卷积层、非线性变换层、池化层和全连接层,并详细说明了卷积层和池化层的参数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

CNN基础

卷积神经网络主要应用于计算机视觉相关任务,但它能处理的任务并不局限于图像,其实语音识别也是可以使用卷积神经网络的。

当计算机看到一张图像(输入一张图像)时,它看的是一大堆像素值。
当我们人类对图像进行分类时,这些数字毫无用处,可他们却是计算机可获得的唯一输入。
现在的问题是:当你提供给计算机这一数组后,它将输出描述该图像属于某一特定分类的概率的数字(eg.80%是猫。15%是狗,5%是鸟)

我们人类是通过特征来区分猫狗,现在想要计算机能够区分开猫和够的图片,就要计算搞清楚猫狗的各自的特有特征。
计算机可以通过寻找诸如边缘和曲线之类的低级特点来分类图片,继而通过一系列卷积层级构建出更为抽象的概念。
上述就是CNN工作方式的大体概述。

为什么叫卷积神经网络?
CNN是从视觉皮层的生物学上获得启发的。
简单来说,就是视觉皮层有小部分的细胞对特定部分的视觉区域很敏感
例如:一些神经元只对垂直边缘兴奋,另一些对水平或对角边缘兴奋。

CNN工作概述

挑一张图片,让它经历一些列的
卷积层
非线性层
池化层(下采样(downsampling)) %一个图片有很多特征,需要简化特征
全连接层 (sigmoid --猫或狗,0或1 softmax --0 1 2 3多分类 )
then得到输出。输出最好是可以描述图像内容的一个单独分类或一组分类的概率

什么是卷积

(听不懂的描述。小声bb)
卷积是指将卷积核应用到某个张量的所有点上,通过将卷积核在输入的张量上滑动而生成经过滤波处理的张量。
卷积核:自己规定卷积核是33或者 55个等等等像素点做为一个卷积核
然后做卷积得到(其实卷积就可以想象成 乘以权重+bias)一个输出。

总的来说:卷积完成的是对图像特征的提取(不同的卷积核可以提取不同的特征)或者说信息匹配,当一个包含某些特征的图像经过一个卷积核的时候,一些卷积核被激活,输出特定信号。

比如,我们训练区分猫狗的图像的时候,卷积核会被训练,训练的结果就是,卷积核会对猫和狗不同特征敏感,输出不同的结果,从而达到了图像识别的目的。

CNN架构

基本架构:
卷积层 conv2d
非线性变换层 relu/sigmiod/tanh
池化层 pooling2d
全连接层 w*x+b
如果没有这些层,模型很难与复杂模式匹配,因为网络将有过多的信息填充,也就是说其他的层都是为了突出重要信息,降低噪声。

下面分别详细介绍一下这些层

卷积层

卷积层有三个参数:
ksize 卷积核的大小
strides 卷积核移动的跨度 (直接影响生成图像大小)
padding 边缘填充 (像素值不能被卷积核大小整除)
卷积核

对应程序中的Conv2D参数
filters --我们要训练多少个卷积核 ,是训练后的图片有多“厚”
kernel_size
strides
padding
比较详细的解释

池化层

池化层实现的功能就是所谓的降采样。
pool_size 和卷积核类似
strides 同卷积(一般在池化时不跳过)
padding 同卷积
池化层

所以池化层和卷积层参数基本类似。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值