我看AlexNet

本文介绍了卷积神经网络的基础组件,包括卷积层、降采样层、激活函数层、标准化层、全连接层和扔掉层。对比了LeNet和AlexNet的结构差异,AlexNet引入了丢弃层(Dropout)以提高模型的泛化能力,并在2012年的ImageNet竞赛中取得突破。文章强调了Fine-Tuning在当前深度学习研究中的重要性,以及将CNN应用于移动端的趋势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Reference.

Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012, 25(2):2012.
https://code.google.com/p/cuda-convnet/


说来惭愧,看了深度学习快五个月了,前几周的Paper Review上刚刚注意到AlexNet,那果断用啊,话说LeNet虽然好用,那也是快20年以前的网络结构了,AlexNet是2012年的结构,不管怎么说肯定好呀。贴一张网络结构的历史


闹,这个AlexNet就是我今天要讲的东西


@Feifei Li真是厉害呀,弄了一个免费的ImageNet,又开始弄分类比赛,省了一大笔广告费就把自己的团队推到研究的最前沿,第一时间掌握到最新的科研动态,而且自己的引用率又急剧飙升,你看现在哪个图像分类研究团队要是没有引用到她的ImageNet或者相关的研究成果都不好意思投顶级期刊。
不说Feifei女神了,就说AlexNet也是一个比较旧旧的网络结构了,2014年的ImageNet冠亚军GoogLeNet和VGG也是现在特别热门的网络结构了,2015年的百度(妈逼居然给我来个学术造假,我擦百度赶紧去死吧!!!丢死人了知道吗!!!全世界都知道了!!!),接下来的深度学习研究方向主要就是

1)Fine-Tuning,
2)大规模GPU并行加速和
3)把CNN嵌入移动端来使用。
(当然还有好多研究方向我不知道喽。。)

  • 大规模GPU加速这个事儿很烧钱的,一般就是那种大公司(Google,[Baidu]<-这货死了,Microsoft等)会去做,我们这种本科生用一块特斯拉的GPU就算很不错了。
  • 因此,Fine-Tuning是最近的研究人员主要的攻关方向,思路很简单啊,既然Feifei女神把广义上的图像分类做绝了,那我们就做小范围的图像分类,类比一下就像[Baidu]<-这货死了把搜索引擎做绝了,那并不是搜索就没得做了,像淘宝,它也做了搜索引擎,只是仅限于商品,那请问现在要搜商品你会去[Baidu]<-这货死了的搜索框还是淘宝的搜索框呢,相信你已经懂了。在学术上,淘宝上这种搜索叫做“垂直搜索”,其他垂直搜索就比如说是校园网的站内搜索,你可以很精准地搜到和学校相关的信息,当然你也不是去[Baidu]<-这货死了那儿搜的。Fine-Tuning的意思就是用现有的学习完的广义图像网络参数作为新网络的初始化,然后扔进去一些你要做的图像的训练集去训练,得到一个你要的特异性的网络。举例子:我想用CNN来做矿泉水品牌的分类,那就在CIFAR训练完的网络作为初始网络,然后用各个品牌的矿泉水来训练,训练一个只对“矿泉水品牌分类”问题超级好的网络。这儿注意哦,CIFAR里头肯定也有矿泉水,但是没这么细,我做的就是将原来这个非特异性的网络训练成了一个对矿泉水敏感的网络。
  • 把CNN嵌入到移动端要做的就是剪枝呗,把训练完的网络尽量用很少的内存来存储,因为手机慢嘛,方法可以用到很多哦,比如哈希编码,Deep compressionSqueeze net 什么的,这个里面比较有说头,接下来就是安卓、iOS编程的事儿了。

就这个套路,要是你想发一个弱弱国内期刊的话怎么办知道吗,找一个冷门的分类问题,超多的其实,举例:1)用CNN根据姨妈红的颜色判断来事儿第几天了,2)用CNN来判断脸上的是青春痘还是痔疮,或者3)用CNN来判断Baidu做了这么多缺德事该不该滚蛋 等等,都是很不错的题材,你去收集一堆(海量哦)训练集,用Fine-Tuning的方法训练一个网络,写论文稍微包装一下,okay,完事儿。你会发现现在一些很水的深度学习论文就是这样做的。呵呵。:)


好了,不吐槽了,说正经的。AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky设计的,这个网络结构和LeNet有什么区别呢?

1

<think>好的,我需要回答用户关于AlexNet第一层输入尺寸的问题。首先,我得回忆一下AlexNet的结构。根据引用[1],AlexNet有输入层、五个卷积层和全连接层。输入层部分提到输入图像被下采样到256x256,然后裁剪中央的256x256区域。但实际输入到网络中的尺寸可能不同。然后看引用[3],里面提到ImageNet图像被调整为短边256,然后裁剪出256x256的中心区域,但网络输入尺寸是固定的。根据论文中的描述,AlexNet的输入尺寸应该是224x224,因为在处理时可能进行了进一步的调整。比如,通常AlexNet的输入层是224x224x3,因为卷积层C1使用11x11的滤波器,步长4,所以计算后得到55x55的特征图,这符合(224-11)/4 +1 =55。因此,输入尺寸是224x224像素,3个颜色通道。 不过用户提到的引用[1]中的输入层可能直接用了256x256,但实际处理后的输入可能不同。需要确认论文中的具体描述。根据引用[3]的引文,输入是256x256,但实际输入到网络的是224x224,因为可能做了中心裁剪。因此,正确的输入尺寸是224x224x3。需要确保回答准确,并引用正确的文献。另外,用户可能混淆了预处理后的图像尺寸和网络实际输入尺寸,因此需要明确区分这两者,并指出AlexNet第一层的输入是224x224x3。</think>### AlexNet第一层输入尺寸说明 AlexNet的**第一层输入尺寸**为$224 \times 224 \times 3$(宽×高×通道数)。以下是关键细节分析: 1. **预处理与输入调整** 根据论文描述[^3],ImageNet图像被统一调整为短边长度为256像素,随后从中心裁剪出$256 \times 256$的区域。但实际输入网络时,会进一步通过**中心裁剪**或**随机裁剪**得到$224 \times 224$的尺寸。这一操作是为了适配后续卷积层的计算(如C1层使用$11 \times 11$卷积核,步长4)。 2. **输入层与数据标准化** - 输入数据为RGB图像,通道数$C=3$。 - 每个像素值会减去训练集的均值(即归一化处理),但不进行其他复杂变换[^3]。 3. **输入尺寸的数学验证** 以第一卷积层C1为例: - 卷积核尺寸$11 \times 11$,步长4,无填充。 - 输出特征图尺寸计算公式: $$ \text{尺寸} = \left\lfloor \frac{224 - 11}{4} \right\rfloor + 1 = 55 $$ 这与C1层输出$55 \times 55 \times 96$的特征图一致[^1][^3]。 ### 代码示例(PyTorch输入适配) ```python import torch from torchvision.models import alexnet # 输入示例:[batch_size, channels, height, width] input_tensor = torch.randn(1, 3, 224, 224) # 符合AlexNet输入要求 model = alexnet(pretrained=True) output = model(input_tensor) ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值