开放的知识:AlexNet的开源实现

前言

March 21, 2025 at 7:46 a.m. 一篇“AlexNet, the AI model that started it all, released in source code form - for all to download”的文章在ZDNET发布了,国内也有很多媒体转发“AlexNet开源”等等的文章,虽然AlexNet的做法在12年出世时就已经有很多研究了,但是作为计算机视觉领域里划时代的神经网络,笔者想简单探讨 AlexNet 的历史、架构,以及其开源可能带来的影响。

关于 AlexNet 的前世今生与开源影响

AlexNet 是一个深度卷积神经网络(CNN),由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 在 2012 年开发。它在AI和图像识别领域掀起了一场革命,尤其是在 2012 年的 ImageNet 大规模视觉识别挑战赛中表现卓越。

AlexNet 的历史

AlexNet 的诞生可以追溯到 2012 年,当时深度学习尚未像今天这样普及。开发团队在多伦多大学工作,训练模型用了两台 Nvidia GTX 580 GPU,耗时 5-6 天。在 ImageNet 挑战赛中,AlexNet 以 15.3% 的 top-5 错误率获胜,领先第二名 10.8 个百分点。这一成绩不仅震惊了业界,也证明了深度学习在计算机视觉中的巨大潜力。从那时起,神经网络成为视觉任务的主流技术。

AlexNet 的架构

AlexNet 的架构包括 8 层:5 个卷积层(部分带有池化层)和 3 个全连接层。总共有 6000 万个参数和 65 万个神经元。输入图像大小为 227×227×3(有时误写为 224×224×3)。它采用了 ReLU 激活函数(像开关,只有输入大于0时激活),以及 dropout 和数据增强来防止过拟合。这些创新让训练更快,模型更鲁棒 (Rubust)。

imgAlexNet 含有 5 个卷积层,3 个最大池化层,3 个全连接层,最后带有1个softmax层。图源:AlexNet Architecture

架构参数
层数8 层:5 卷积层 + 3 全连接层
输入大小227×227×3
参数总数60 百万
神经元总数650,000
激活函数ReLU,非饱和,比 tanh 和 sigmoid 好
正则化Dropout(概率 0.5),数据增强(旋转、翻转等)
训练数据集ImageNet,120 万张图像
训练优化动量梯度下降,批量大小 128,动量 0.9,权重衰减 0.0005
开源的潜在影响

计算机历史博物馆将 AlexNet 的 2012 版源代码开源,发布在 GitHub 上(GitHub)。这意味着任何人可以下载、研究和修改代码,这可能带来以下影响:

  • 教育:初学者可以直接学习代码,理解深度学习原理。
  • 研究:研究人员可基于 AlexNet 实验和改进,推动新模型开发,如 GoogLeNet、VGGNet 等。
  • 创新:开源促进合作,可能激发更多 AI 突破,尤其在当前如 DeepSeek AI 的 R1 等开源模型受关注的背景下。

在今年开始到现在不到4个月,AI领域的动态变化太块,各种卷模型,卷算力,不断告诉大家 Scaling Law 没有失效,算力越大模型越好,在这样的形式下公开代码,实际上也是各界默认AI的加速发展。同时,报道里有这样的一段话:

“It seemed like this unbelievably difficult dataset, but it was clear that if we were to train a large convolutional neural network on this dataset, it must succeed if we just can have the compute,” Sutskever told Huang in 2023.

The fast computing they needed turned out to be a dual-GPU desktop computer that Krizhevsky worked on in his bedroom at his parents’ house.

笔者认为公开代码也是在给英伟达GTC造声浪,告诉大家快来买卡,而目前来看,无论技术如何更新,对GPU的需求都太大了。


AlexNet 与 GPU

AlexNet 由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 在 2012 年于多伦多大学开发,初次发布于 2011 年 6 月 28 日。其训练过程使用了两台 Nvidia GTX 580 GPU,每台 3GB,理论浮点运算性能为 1.581 TFLOPS,发布价为 500 美元。训练耗时 5-6 天,共 90 个 epoch,每个前向传播需要约 1.43 GFLOPs,在理想条件下可达每秒超过 2200 次前向传播。

AlexNet 的成功得益于前人的工作,如 LeNet-5(Yann LeCun 等,1989 年)和 neocognitron(Kunihiko Fukushima,1980 年)。此外,GPU 技术的进步也至关重要,例如 Chellapilla 等(2006 年)实现了 CNN 在 GPU 上的 4 倍加速,Raina 等(2009 年)在 Nvidia GTX 280 上实现了 70 倍加速,Cireșan 等(2011 年)在 2011 年 5 月 15 日至 2012 年 9 月 10 日间赢得了 4 个图像竞赛。

历史里程碑详情
初次发布2011 年 6 月 28 日
ImageNet 挑战赛获胜2012 年 9 月 30 日,top-5 错误率 15.3%,领先 10.8 个百分点
训练硬件2 台 Nvidia GTX 580 GPU,3GB 内存,1.581 TFLOPS,500 美元
训练时间5-6 天,90 个 epoch
团队发展成立 SuperVision,后被 Google 收购为 DNNResearch

结语

随着技术的进步,我们正站在一个全新的起点上。未来的人工智能将不再局限于单一的图像识别任务,而是向着更广泛的应用场景迈进——从自动驾驶汽车到医疗诊断,从智能家居到个性化教育。在这个过程中,开源的力量将扮演至关重要的角色,推动着整个行业不断向前发展。

但挑战依然存在。如何在保证效率的同时提升模型的透明度?怎样才能让 AI 更加公平、可访问,并且对所有人有益?这些问题需要全球社区的共同努力来解答。因此,当我们庆祝 AlexNet 开源所带来的成就时,也应该持续探索未知,勇敢面对挑战,以及永远保持对知识的好奇心和敬畏之心。


Key Citations
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值