卷积神经网络 - 卷积池化

本文介绍了卷积神经网络(CNN)的基本结构与工作原理,包括输入层、卷积层、激活函数、池化层和全连接层等组成部分。详细解释了卷积层如何提取特征,池化层的作用以及全连接层如何进行最终的分类。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

卷积神经网络
卷积神经网络(CNN)由输入层,卷积层,激活函数,池化层,全连接层组成。
Input - Conv - Relu - Pool - Fc

  1. 卷积层:用于特征的提取
    卷积层:
    输入图像是32 * 32 * 3(R,G,B),用一个5 * 5 * 3 的filter【注意,两个3必须相同】,得到一个28 * 28 * 1 的特征图。
    如何由32经由5得到28? 以5经由3得到3为例解释如下:
    这里写图片描述

通常我们会使用多层的卷积得到更深层次的特征。
2. zero pad
为图像加上一个边界,边界元素为0,使得输入图像和卷积之后的特征图维度相同。
例如输入5* 5 * 3, filter 3* 3* 3 ,加上zero pad (5-3)之后变为7 * 7 * 3 ,卷积之后的特征图大小为(5+2-3+1) 5 * 5 * 3
3. 池化层
对输入的特征图进行压缩,使得特征图减小,简化网络计算的复杂度,同时进行特征压缩,提取主要特征。
池化操作如下:对不同位置的特征进行聚合统计。
这里写图片描述
池化有两种:Avy pooling, Max pooling
Max pooling 如下:max pooling 是在每一个区域取最大值,stride=2. 一般filter取2 * 2,stride取2压缩为原来的1/4, pooling 使得特征图缩小,会影响网络图的精度,可以通过增加图的深度来弥补。
Avy pooling 是取每一个区域的平均值。

4.全连接层
连接所有的特征,将输出值送给分类器(例如softmax分类器)

总体结构如下:
这里写图片描述

<think>我们正在讨论卷积神经网络CNN)的基础理论。根据引用内容,CNN是深度学习的一种代表算法,特别适用于处理图像、视频等网格化数据。它通过卷积层、池化层和全连接层等结构自动提取特征。关键点:1.卷积层:使用卷积核(滤波器)在输入数据上滑动,计算局部区域的加权和,提取局部特征。数学表达:$$(f*g)(t)=\int_{-\infty}^{\infty}f(\tau)g(t-\tau)d\tau$$,在离散情况下为:$$(f*g)[n]=\sum_{m=-\infty}^{\infty}f[m]g[n-m]$$2.池化层:降低特征图的空间尺寸,增强模型鲁棒性(如最大池化、平均池化)。3.激活函数:引入非线性(如ReLU:$f(x)=\max(0,x)$)。4.全连接层:在网络的末端进行分类或回归。CNN的独特优势在于权值共享和局部连接,大幅减少参数数量,并保留空间信息。相关问题:1.卷积层的具体计算过程是怎样的?2.为什么CNN比全连接神经网络更适合图像处理?3.常见的CNN架构有哪些(如LeNet,AlexNet等)?4.如何理解卷积神经网络中的“卷积”与数学中的卷积有何异同?</think>### 卷积神经网络基础理论 卷积神经网络CNN)是深度学习的核心算法之一,特别擅长处理具有网格结构的数据(如图像、音频)。其基础理论包含以下核心概念: #### 1. 卷积操作(核心原理) - **数学定义**:离散卷积运算表示为 $$(f * g)[n] = \sum_{m=-\infty}^{\infty} f[m] \cdot g[n - m]$$ 其中 $f$ 是输入数据,$g$ 是卷积核(滤波器) - **实际应用**: 在图像处理中,使用 $3\times3$ 或 $5\times5$ 的卷积核在输入图像上滑动,计算局部区域的加权和,实现特征提取: ```python # 伪代码示例:二维卷积操作 for i in range(image_height): for j in range(image_width): output[i,j] = sum(kernel * image_patch[i:i+k_h, j:j+k_w]) ``` #### 2. 网络核心结构 | 层类型 | 作用 | 数学表达 | |--------------|----------------------------------------------------------------------|------------------------------| | **卷积层** | 提取局部特征(边缘/纹理等) | $y_{ij} = \sigma(\sum w_k x_{i+k,j+l} + b)$ | | **池化层** | 降维并保留关键特征(常用最大池化) | $\max(x_{i:i+p}, x_{j:j+p})$ | | **激活层** | 引入非线性(常用ReLU) | $f(x)=\max(0,x)$ | | **全连接层** | 最终分类/回归 | $y = Wx + b$ | #### 3. 关键创新机制 - **权值共享**:同一卷积核在整个输入上复用,大幅减少参数量 - **局部感知**:每个神经元只处理局部区域,符合视觉特性 - **层级特征提取**: - 浅层:边缘/角点等基础特征 - 中层:纹理/部件组合 - 深层:语义对象(如"车轮"、"人脸") #### 4. 生物学启发 CNN结构模拟视觉皮层V1-V4区的层级处理机制:简单细胞→复杂细胞→超复杂细胞[^3]。这种结构使网络能自动学习从低级到高级的特征表示[^2]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值