深度学习硬件与分布式训练技术解析
1 晶体管尺寸的重要性
长期以来,半导体行业通过观察晶体管尺寸来追踪芯片速度的发展。随着晶体管尺寸变小,更多的晶体管可以集成到标准芯片上,算法运行速度也会加快。目前,英特尔正在使用 10 纳米晶体管,并致力于向 7 纳米过渡。然而,近年来晶体管尺寸缩小的速度显著放缓,因为在这些尺度下会出现严重的散热问题。
英伟达的 GPU 部分地打破了这一趋势。它们倾向于使用比英特尔最先进技术落后一代或两代的晶体管尺寸,而是专注于解决架构和软件瓶颈,而非晶体管工程。到目前为止,英伟达的策略取得了成效,该公司在机器学习芯片领域占据了市场主导地位。
目前尚不清楚架构和软件优化能走多远。GPU 优化是否会像 CPU 一样很快遇到摩尔定律的障碍?还是巧妙的架构创新能让 GPU 在未来几年保持更快的速度?这只能交给时间来解答。
2 张量处理单元(TPU)
张量处理单元(TPU)是谷歌设计的定制专用集成电路(ASIC),用于加速在 TensorFlow 中设计的深度学习工作负载。与 GPU 不同,TPU 经过精简,仅实现执行必要矩阵乘法所需的最小芯片功能。而且,TPU 依赖相邻的 CPU 来完成大部分预处理工作。这种精简的方法使 TPU 能够以更低的能耗实现比 GPU 更高的速度。
第一代 TPU 仅支持对训练好的模型进行推理,但最新版本(TPU2)也允许对某些深度网络进行训练。然而,谷歌尚未公布关于 TPU 的许多细节,并且访问权限仅限于谷歌的合作伙伴,不过有计划通过谷歌云提供 TPU 访问。英伟达正在借鉴 TPU 的经验,未来英伟达 GPU 的新版本很可能会类似于 TPU,因此无论谷歌还是英伟达赢得消费者深
超级会员免费看
订阅专栏 解锁全文
1563

被折叠的 条评论
为什么被折叠?



