前言
March 21, 2025 at 7:46 a.m. 一篇“AlexNet, the AI model that started it all, released in source code form - for all to download”的文章在ZDNET发布了,国内也有很多媒体转发“AlexNet开源”等等的文章,虽然AlexNet的做法在12年出世时就已经有很多研究了,但是作为计算机视觉领域里划时代的神经网络,笔者想简单探讨 AlexNet 的历史、架构,以及其开源可能带来的影响。
关于 AlexNet 的前世今生与开源影响
AlexNet 是一个深度卷积神经网络(CNN),由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 在 2012 年开发。它在AI和图像识别领域掀起了一场革命,尤其是在 2012 年的 ImageNet 大规模视觉识别挑战赛中表现卓越。
AlexNet 的历史
AlexNet 的诞生可以追溯到 2012 年,当时深度学习尚未像今天这样普及。开发团队在多伦多大学工作,训练模型用了两台 Nvidia GTX 580 GPU,耗时 5-6 天。在 ImageNet 挑战赛中,AlexNet 以 15.3% 的 top-5 错误率获胜,领先第二名 10.8 个百分点。这一成绩不仅震惊了业界,也证明了深度学习在计算机视觉中的巨大潜力。从那时起,神经网络成为视觉任务的主流技术。
AlexNet 的架构
AlexNet 的架构包括 8 层:5 个卷积层(部分带有池化层)和 3 个全连接层。总共有 6000 万个参数和 65 万个神经元。输入图像大小为 227×227×3(有时误写为 224×224×3)。它采用了 ReLU 激活函数(像开关,只有输入大于0时激活),以及 dropout 和数据增强来防止过拟合。这些创新让训练更快,模型更鲁棒 (Rubust)。
AlexNet 含有 5 个卷积层,3 个最大池化层,3 个全连接层,最后带有1个softmax层。图源:AlexNet Architecture。
架构参数 | 值 |
---|---|
层数 | 8 层:5 卷积层 + 3 全连接层 |
输入大小 | 227×227×3 |
参数总数 | 60 百万 |
神经元总数 | 650,000 |
激活函数 | ReLU,非饱和,比 tanh 和 sigmoid 好 |
正则化 | Dropout(概率 0.5),数据增强(旋转、翻转等) |
训练数据集 | ImageNet,120 万张图像 |
训练优化 | 动量梯度下降,批量大小 128,动量 0.9,权重衰减 0.0005 |
开源的潜在影响
计算机历史博物馆将 AlexNet 的 2012 版源代码开源,发布在 GitHub 上(GitHub)。这意味着任何人可以下载、研究和修改代码,这可能带来以下影响:
- 教育:初学者可以直接学习代码,理解深度学习原理。
- 研究:研究人员可基于 AlexNet 实验和改进,推动新模型开发,如 GoogLeNet、VGGNet 等。
- 创新:开源促进合作,可能激发更多 AI 突破,尤其在当前如 DeepSeek AI 的 R1 等开源模型受关注的背景下。
在今年开始到现在不到4个月,AI领域的动态变化太块,各种卷模型,卷算力,不断告诉大家 Scaling Law 没有失效,算力越大模型越好,在这样的形式下公开代码,实际上也是各界默认AI的加速发展。同时,报道里有这样的一段话:
“It seemed like this unbelievably difficult dataset, but it was clear that if we were to train a large convolutional neural network on this dataset, it must succeed if we just can have the compute,” Sutskever told Huang in 2023.
The fast computing they needed turned out to be a dual-GPU desktop computer that Krizhevsky worked on in his bedroom at his parents’ house.
笔者认为公开代码也是在给英伟达GTC造声浪,告诉大家快来买卡,而目前来看,无论技术如何更新,对GPU的需求都太大了。
AlexNet 与 GPU
AlexNet 由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 在 2012 年于多伦多大学开发,初次发布于 2011 年 6 月 28 日。其训练过程使用了两台 Nvidia GTX 580 GPU,每台 3GB,理论浮点运算性能为 1.581 TFLOPS,发布价为 500 美元。训练耗时 5-6 天,共 90 个 epoch,每个前向传播需要约 1.43 GFLOPs,在理想条件下可达每秒超过 2200 次前向传播。
AlexNet 的成功得益于前人的工作,如 LeNet-5(Yann LeCun 等,1989 年)和 neocognitron(Kunihiko Fukushima,1980 年)。此外,GPU 技术的进步也至关重要,例如 Chellapilla 等(2006 年)实现了 CNN 在 GPU 上的 4 倍加速,Raina 等(2009 年)在 Nvidia GTX 280 上实现了 70 倍加速,Cireșan 等(2011 年)在 2011 年 5 月 15 日至 2012 年 9 月 10 日间赢得了 4 个图像竞赛。
历史里程碑 | 详情 |
---|---|
初次发布 | 2011 年 6 月 28 日 |
ImageNet 挑战赛获胜 | 2012 年 9 月 30 日,top-5 错误率 15.3%,领先 10.8 个百分点 |
训练硬件 | 2 台 Nvidia GTX 580 GPU,3GB 内存,1.581 TFLOPS,500 美元 |
训练时间 | 5-6 天,90 个 epoch |
团队发展 | 成立 SuperVision,后被 Google 收购为 DNNResearch |
结语
随着技术的进步,我们正站在一个全新的起点上。未来的人工智能将不再局限于单一的图像识别任务,而是向着更广泛的应用场景迈进——从自动驾驶汽车到医疗诊断,从智能家居到个性化教育。在这个过程中,开源的力量将扮演至关重要的角色,推动着整个行业不断向前发展。
但挑战依然存在。如何在保证效率的同时提升模型的透明度?怎样才能让 AI 更加公平、可访问,并且对所有人有益?这些问题需要全球社区的共同努力来解答。因此,当我们庆祝 AlexNet 开源所带来的成就时,也应该持续探索未知,勇敢面对挑战,以及永远保持对知识的好奇心和敬畏之心。
Key Citations
- AlexNet - Wikipedia history and architecture
- AlexNet, the AI model that started it all, released in source code form - for all to download | ZDNET
- Computer History Museum AlexNet Source Code GitHub Readme
- [ZDNET article on OpenAI and open-source models](https://www.zdnet.com/article/is-openai-doomed-open-source-models-may-crush-it-warns-expert/#link={%22role%22:%22standard%22,%22href%22:%22https://www.zdnet.com/article/is-openai-doomed-open-source-models-may-crush-it-warns-expert/%22,%22target%22:%22%22,%22absolute%22:%22%22,%22linkText%22:%22enthralled with another open-source model, DeepSeek AI%27s R1%22})