- 博客(3)
- 收藏
- 关注
原创 数据中心解剖第 1 部分:电气系统
随着 Blackwell 的推出,这一切都将发生改变。Nvidia 的GB200 系列需要直接对芯片进行液体冷却,机架功率密度高达 130kW,与 H100 相比,推理性能提高了约 9 倍,训练性能提高了约 3 倍。任何不愿意或无法提供更高密度液体冷却的数据中心都将错失为其客户提供巨大的性能 TCO 改进,并将在生成式 AI 军备竞赛中落后。Blackwell 已经标准化了要求,现在供应商和系统设计师对 AI 数据中心开发有了清晰的路线图,从而导致数据中心系统和组件赢家/输家发生巨大转变。
2025-02-17 10:34:35
938
原创 亚马逊AI | Trainium2 架构与网络 详解
扩展网络提供的高带宽域用于实现需要高带宽和低延迟的并行方案,例如张量并行,而扩展网络的低带宽域用于其他形式的并行,例如对延迟相对不太敏感的数据并行。Trainium2 有两种 SKU,第一种是将每台服务器单元的 16 个 Trainium2 芯片连接在一起,形成一个 4×4 二维环面的单一扩展世界大小,而第二种是将每台服务器单元的 64 个 Trainium2 芯片(跨两个机架)连接在一起,形成一个 4x4x4 三维环面的单一扩展世界大小,称为 Trainium2-ultra。
2025-01-16 09:15:00
1247
原创 搭建10万张H100GPU集群要注意什么? 看完后,剩下的就是怎么搞定40亿美元了
与使用前端网络相比,这为未来的带宽增加提供了更大的灵活性,因为从 A 栋楼的一个交换机向 B 栋楼的另一个交换机添加更多光纤收发器要容易得多,而对集群的每个机箱进行完整的前端网络 NIC 升级以将其从 100G 升级到 200G 等则要容易得多。与岛内的网络相比,岛之间的网络速度要慢 7 倍。从下面的机架图中可以看出,现在叶交换机位于机架中间,允许每个 GPU 使用 DAC 铜线,而不是每个 GPU 到叶交换机的连接都向上连接到电缆托盘,然后横向穿过 9 个机架连接到专用的轨道优化叶交换机机架。
2025-01-15 14:56:41
1990
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人