基础篇
经典必读
-
The Datacenter as a Computer: Designing Warehouse-Scale Machines (Third Edition) — 类型:书籍(2018,Morgan & Claypool)pages.cs.wisc.edu 简要说明:由 Google 工程领袖撰写的“仓库规模计算机”教科书,系统介绍超大规模数据中心(WSC)的设计原理,包括基础设施、软硬件协同与性能优化 pages.cs.wisc.edu。适合希望全面了解数据中心架构演进与设计权衡的读者。 标签:#overview #基础
-
Data Center Handbook: Plan, Design, Build, and Operations of a Smart Data Center (第二版) — 类型:书籍(2021,Wiley)vitalsource.com 简要说明:覆盖数据中心规划、设计、建设和运营各方面的权威手册,由业界专家合著 vitalsource.com。内容涵盖机房选址、电力与制冷、网络架构、安全与运维等,是工程师和管理者的综合参考指南。适合系统学习数据中心工程实践与最佳方案。 标签:#overview #设计指南
-
Uptime Institute Global Data Center Survey — 类型:行业报告(2022,Uptime Institute)uptimeinstitute.com 简要说明:Uptime Institute 每年发布的数据中心行业调查报告,涵盖设施可靠性、能源效率、运维实践和新技术采用等趋势 uptimeinstitute.com。通过全球调研数据提供业界现状洞察,例如停机事件分析、PUE 水平、人员短缺等。适合把握数据中心宏观发展趋势和业界基准。 标签:#industry #趋势
-
ANSI/TIA-942 Data Center Infrastructure Standard— 类型:标准(2005/2017/2023,TIA)tiaonline.org 简要说明:TIA-942 是全球采用的数据中心基础设施标准,涵盖选址、建筑布局、布线、供配电、制冷、安全等要求。自 2005 年发布以来多次更新(最新 TIA-942-C 版发布于 2023 年)以反映技术进步和边缘数据中心等新趋势。适合用于数据中心设计规划的规范参考。 标签:#architecture#标准
-
Open Compute Project (OCP)— 类型:开放社区/规范(2011,OCP 基金会)datacenterknowledge 简要说明:由 Facebook 发起的开放计算项目,公开分享超大规模数据中心服务器、机架、电源和散热设计。OCP 推动了 21 英寸开放机架、整机柜供电、风扇墙等创新,以降低能耗和成本。许多公司加入该社区共同制定开源硬件规范,使数据中心设计更标准化、高效化。 标签:#architecture#开放硬件
整体分析
-
[Paper · 2025] Rearchitecting Datacenter Lifecycle for AI: A TCO-Driven Framework (arXiv:2509.26534) 用完整 TCO 框架重构 AI 数据中心从选址、建设、运维到退役的生命周期,给出「AI DC 作为长期资产」的系统性视角,非常适合作为宏观入门。 arXiv
-
[TR · 2025] Energy and AI(IEA 世界能源展望特别报告) IEA 首份系统分析 AI 与全球能源关系的重量级报告,里面有单独章节讨论 AI 数据中心的能耗情景、地区差异与政策含义,是理解「AI+电力」大背景的必读材料。 IEA
-
[Paper · 2025] Electricity Demand and Grid Impacts of AI Data Centers: Challenges and Prospects (arXiv:2509.07218) 从电力系统视角系统评估 AI 数据中心的负荷特性、并网挑战与可能的缓解路径,用量化模型回答「AI DC 到底会吃掉多少电」。 arXiv
-
[TR · 2025] AI’s Power Requirements Under Exponential Growth(RAND 报告) 用情景建模分析 AI 算力按指数扩张时,单个与多地点数据中心的电力需求区间,讨论「集中 vs. 分布式训练」对电网压力的差异。 rand.org
-
[Paper · 2025] Trends in AI Supercomputers (arXiv:2504.16026) 面向「AI 超级计算机」的综述型论文,梳理近年的大模型训练集群在算力规模、互连、能耗和系统设计上的演进趋势,把 AI data center 放到超算一脉来看。 arXiv
-
DATA CENTERS IN THE AGE OF AI: A Tutorial Survey on Infrastructure, Sustainability, and Emerging Challenges (2025) TechRxiv tutorial 型 survey,系统梳理 AI 数据中心整体基础设施:厂房/供电/制冷、机架功率密度、GPU/TPU 集群、光互连、以及碳排与政策等,偏「大局观 + 工程实务」。
-
Scaling Intelligence: Designing Data Centers for Next-Gen Language Models (2025) 典型的 机房级 co-design 论文:同时优化 FLOPS、HBM 带宽容量、两级 vs FullFlat 光互连拓扑、scale-up/scale-out 域规模与并行策略(TP/PP/DP/MoE)。给出从 8→1024 GPU HBD、FullFlat 光网络等多种 AI 数据中心架构下 MFU/吞吐的对比,是理解「未来 AI 机房长什么样」非常核心的一篇。
-
AI Data Centers Need Pioneers to Deliver Scalable Power via Offgrid AI (2025) 探讨通过“离网”电源(独立可再生能源、微电网等)给 GW 级 AI 数据中心供电的架构和商业模式,对 电源侧设计 有启发(比如是不是要把算力放在产能富余的地区再用网络迁移数据)。
-
Edge AI: Architecture, Applications, and Challenges (2025) 侧重点在 Edge-Cloud 分层架构:设备层 / 边缘节点 / 云数据中心三层体系,讨论哪些 AI 负载在边缘、哪些进 AI DC,对 整体系统架构和流量走向 有参考价值。
深入篇
体系结构 & 集群网络入门
-
[Paper · 2025] InfiniteHBD: Building Datacenter-Scale High-Bandwidth Domain for LLM with Optical Circuit Switching Transceivers(SIGCOMM’25) 以 LLM 训练为目标,提出在数据中心内部用光路交换构建「高带宽域」,是理解 AI DC 网络设计 / 专用互连 的高级入门案例。 arXiv
-
[Paper · 2025] Towards Easy and Realistic Network Infrastructure Testing for Large-scale Machine Learning(NSDI’25, Genie) 提供一个可以在实验环境中「拟真」大规模 ML 集群网络的工具,用来评估训练作业在不同网络条件下的表现,是做 AI DC 网络工程和实验研究时的必备基建。 arXiv
-
[Paper · 2025] DCPerf: An Open-Source, Battle-Tested Performance Modeling Framework for Large-Scale Datacenter Applications(ISCA’25) 开源的 DC 性能建模框架,支持对大规模应用(含 ML 作业)做结构化性能预测,是从「单机 profiling」走向「数据中心级容量规划」的经典工具。 dl.acm.org
-
[Paper · 2025] PRISM: Probabilistic Runtime Insights and Scalable Performance Modeling for Large-Scale Distributed Training(arXiv:2510.15596) 建立大规模分布式训练的概率性能模型,刻画作业在集群上的尾延迟与资源利用,可以帮助你从「作业运行日志」跳升到可解释的系统级模型。 arXiv
-
[Paper · 2025] Revisiting Reliability in Large-Scale Machine Learning Research Clusters(HPCA’25, Meta) 以大规模 ML 研究集群为对象做系统级可靠性分析,量化硬件软故障、作业失败模式,是理解「AI DC 可靠性设计」和 SRE 工程的很好切入点。 kokolis2
性能分析
-
DCPerf: An Open-Source, Battle-Tested Performance Benchmark Suite for Datacenter Workloads (ISCA 2025) Meta 的开源基准套件,用于 hyperscale 数据中心 CPU 工作负载建模,被用于真实采购决策;对 AI DC 中 非 AI 负载(KV-store / 视频 / DB 等) 的性能/能耗建模很关键。 👉 代码仓库:facebookresearch/DCPerf
-
Application identification in data centres: a traffic driven approach to classification (UCAM-CL-TR-1000, 2025) 剑桥的技术报告,用网络流量模式对数据中心中的应用进行识别和分类,包括 AI 训练、MapReduce 等,对 机房内流量工程 & 隔离 有帮助,能辅助做拓扑与 QoS 设计。
-
Revisiting Reliability in Large-Scale Machine Learning Research Clusters (HPCA 2025) 对大规模 ML 集群的故障模式、节点/机架级失效率进行实测与建模,给出对 GPU 集群和 AI 超算可靠性改进的系统级建议,可直接影响 机房冗余设计、job 调度和拓扑冗余。
-
Miniature: Fast AI Supercomputer Networks Simulation on FPGAs (APNet 2025) 使用 FPGA 快速模拟 AI 超算网络的性能,用于探索大规模 GPU fabric 的架构设计空间,是做 AI DC 网络拓扑和拥塞控制前的一个高保真仿真工具。
-
Genie: Towards Easy and Realistic Network Infrastructure Testing for Large-Scale Machine Learning Systems(NSDI 2025) 面向大规模 ML 的网络基础设施测试框架,简化在真实 AI 训练 workload 下对数据中心网络做压力和鲁棒性测试,非常适合在 设计/升级 AI DC 网络 时使用。
架构参考
-
[The Ultra-Scale Playbook: Training LLMs on GPU Clusters (2025)] 被 Scaling Intelligence 多次引用,对超大规模 GPU 集群训练的拓扑、并行策略和调度给出实践经验和配置建议,是设计训练集群拓扑与并行参数的「实践手册」。
-
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures (2025) DeepSeek 团队关于 DeepSeek-V3 训练基础设施的技术报告,包含对硬件瓶颈、网络架构以及未来 AI 架构方向的反思,对「大模型团队怎么设计自建 AI 超算集群」有很直接的参考价值。
-
Data-Centric Infrastructure Cluster Reference Model 1.0 (IOWN Global Forum, 2025) IOWN GF 发布的数据中心集群参考架构,提出 Data-Centric Infrastructure (DCI) 的 cluster-level blueprint:计算节点、可组合存储、光互连、以及控制平面,适合作为 未来光互连 / disaggregated AI DC 的设计起点。
-
Ultra Ethernet Consortium – Architecture & Specification(2025) UEC 给出的新一代高带宽、低延迟以太网规范,显式针对 AI/HPC 负载(大规模 AllReduce 等)做了设计,对「用以太网而不是 InfiniBand 搭 AI Fabric」很关键。
教程 / Workshop / 实操资料
MICRO 58 (2025) 系列教程 / Workshop
-
🎓 Tutorial: AI Accelerators at Scale – Architecture, Design, Resilience, and Operational Challenges MICRO 58 Tutorial, 2025 从 单芯片 → 芯粒 → 机架 → 数据中心 全栈讲 AI 加速器在大规模部署中的架构与运行挑战,非常贴合“算力视角看机房设计” 的主题。micro
-
🎓 Tutorial: Compilers for AI Accelerators / End-to-End Compiler Infrastructure for Emerging Tensor Accelerators MICRO 58 Tutorial + ACT 项目, 2025 讲如何为新型张量加速器构建完整编译链,对自研加速器进入 数据中心生产环境 的关键软件栈有详细说明。act-compiler.GitHub.io
-
🎓 Tutorial: TeAAL and HiFiber – Precise and Concise Descriptions of (Sparse) Tensor Algebra Accelerators MICRO 58 Tutorial, 2025 面向稀疏张量加速器的形式化描述与分析工具,有助于将 高层 workload 需求 精确映射到硬件资源规划。TeAAL
-
🧪 Workshop/Tutorial: Vortex – An Open-Source RISC-V GPGPU for Architecture Research MICRO 58 Workshop + Hands-on, 2025 提供开源 RISC-V GPU + 工具链,能用来搭建 小型 GPU 集群原型,研究调度、功耗和互连对系统的影响。vortex
-
🧪 Workshop: Scarab Microarchitectural Simulator MICRO 58 Workshop, 2025 提供可扩展的微结构仿真平台,可插入自定义 GPU/AI 加速器模型,用于估算 机架/机房级功耗和性能。hlitz.GitHub.io+1
-
🧪 Workshop: HiPChips – High Performance Chiplet and Interconnect Architectures MICRO 58 Workshop, 2025 聚焦 chiplet + 高速互连,讨论 chiplet 化 GPU/加速器在封装、功耗、布线上的系统性影响,和 DC 架构高度相关。hipchips.GitHub.io
GTC / 业界技术 Session
-
🎓 NCCL: The Inter-GPU Communication Library Powering Multi-GPU AI NVIDIA GTC 2025 Session S72583, Sylvain Jeaugey 深入讲解 NCCL + NVLink/NVSwitch 在多 GPU 集群中的使用,对理解 AI 加速集群里的集体通信瓶颈 很关键。NVIDIA
-
🎓 Why NVIDIA H200 and NCCL Are Reshaping AI Training Efficiency at Scale Uvation 技术文章, 2025 概述 H200 + 新一代 NVSwitch fabric 在大规模训练上的优势,侧重 训练效率 vs 功耗 vs 节点数量 的工程视角。uvation.com
专门面向 AI 加速器 & AI Data Center 的 Tutorials
-
AI Accelerators at Scale – Architecture, Design, Resilience, and Operational Challenges (MICRO 58 Tutorial, 2025) MICRO 2025 的半天 tutorial,围绕 Meta MTIA 等大规模 AI 加速器,从 架构、设计、可靠性到运维挑战 进行系统讲解。面向做 AI DC 的架构师和系统工程师,非常贴合「从芯片到机房」的视角。
-
Rack-Scale to Data Center-Scale AI Building Block Solutions (GTC 2025, Session S74306) Supermicro + NVIDIA 在 GTC 2025 的 session,讲解如何用 GB200/Blackwell 节点、NVLink/Switch、液冷机柜等构建 rack 到 data center 级的 AI 架构。提供视频与(通常)可下载的 PDF slides,需要 NVIDIA 账号但免费。
-
Tomorrow AI Datacenter with CXL – Invited Talk (2025) 由 Myoungsoo Jung 等在 2025 年做的 keynote,围绕 CXL 在未来 AI 数据中心中的角色,包括内存池化、加速器直连等,对 disaggregated memory / CXL 机房架构 有很好启发。camelab.org
-
Vortex / Ventus: Open-source RISC-V GPGPU and GPU Programming Tutorial (MICRO 2025 Workshop & Tutorial) 讲解开源 GPGPU 栈(Vortex, Ventus)与 GPU 编程,在理解「GPU 芯片/板卡行为」与做系统级模拟时很有用。microarch.org
-
Scarab Microarchitectural Simulator Tutorial (MICRO 2025) 介绍 Scarab 微架构模拟器,用于 CPU/加速器 pipeline 的高精度建模,常被用于数据中心 CPU/GPU 上的 workload 分析和 co-design。microarch.org
-
TeAAL & HiFiber: Precise and Concise Descriptions of (Sparse) Tensor Algebra Accelerators (MICRO 2025 Tutorial) 面向稀疏张量加速器的描述与建模,对在机房层面规划「什么类型的稀疏加速器适合部署」和做架构仿真有用。microarch.org
进阶篇(Compute & Accelerator 视角)
-
AI Accelerators for Large Language Model Inference: Architecture Analysis and Scaling Strategies (2025) 对主流商用 AI 加速器(GPU、TPU、wafer-scale engine 等)做系统对比,包括内存层次、互连与扩展策略,并分析不同并行策略下的扩展瓶颈,为 选型与机房配比(某类卡适合训练/推理) 提供依据。
-
Chiplet-Based RISC-V SoC with Modular AI Acceleration (2025) 基于 chiplet 的 RISC-V SoC + 模块化 AI 加速设计,展示如何在硅片内实现可扩展 AI 模块、HBM3、UCIe 互连等,为未来 chiplet 化 AI 节点 的机架布局和互连留出接口。
-
VUSA: Virtually Upscaled Systolic Array Architecture to Exploit Unstructured Sparsity in AI Acceleration (2025) 通过虚拟放大 systolic array,在不增加实体 MAC 数量的情况下提升利用稀疏性的算力密度;从机房视角看,这类设计意味着在给定功率密度下能堆更多有效 FLOPS,有利于高密度 AI rack 设计。
-
Architecture, Simulation and Software Stack to Support Post-CMOS Accelerators: The ARCHYTAS Project (2025) 介绍光电、存内计算、类脑等后 CMOS 加速器与系统集成的整体架构和软件栈,对 未来非传统加速器进入数据中心 的系统集成与 co-sim 提供参考。
-
Roadmap on Neuromorphic Photonics (2025) 从光子互连与类脑计算的角度讨论 AI 加速器与光子 interposer 集成路线图,为 高带宽、低功耗机房级互连 的长期技术方向提供视角。
-
NVIDIA DGX Spark: A Grace Blackwell AI Supercomputer on Your Desk (2025) 官方系统页面和技术资料介绍一台「桌面级 AI 超算」的节点/机箱架构(GB200、NVLink、液冷等),从单节点扩展到 rack / mini-cluster,是理解 节点→机架→机房 设计递进关系的一个不错案例。arXiv
-
Lightmatter Passage L200: Co-Packaged Optics for AI (2025) 产品技术 brief,说明用于 AI 负载的 CPO(co-packaged optics)能力指标和系统集成方式,在 Scaling Intelligence 中被用于构建 FullFlat 光互连的系统模型 arXiv。适合用来理解「光电互连在 AI DC 中具体怎么落地」。
总览 / Survey / 大图景
-
📄 AI Accelerators for Large Language Model Inference: Architecture Analysis and Scaling Strategies Amit Sharma et al., arXiv 2025 | 标签:LLM 推理加速器综述 / Hopper+TPU+Trainium / 能效 & 吞吐对比 | 聚焦 LLM 推理 的 GPU/ASIC/PIM 加速架构,对比算力、带宽、能效,为做 “每 Token 需要多少瓦 / 多少机柜” 提供直接基准。
-
📄 Scaling Intelligence: Designing Data Centers for Next-Gen Language Models Intel & Georgia Tech, arXiv 2025 从 模型→集群→数据中心 多层级做 co-design,给出 LLM 规模、GPU 配比、网络拓扑、冷却/供电的系统化推导,非常适合直接映射到 机房总体规划。
-
📄 Insights into DeepSeek-V3: Scaling Challenges, Reflections, and Innovations for Future AI Architectures DeepSeek 团队, arXiv 2025 结合大规模训练实战,总结 MoE + 万卡集群 在算力、网络、调度和电力侧的坑与经验,对“如何让加速卡跑满”有很多一线教训。
-
📄 Lincoln AI Computing Survey (LAICS) and Trends in AI Compute Systems MIT Lincoln Lab, Tech Report + Slides, 2025 非常系统地盘点 GPU / TPU / ASIC / NPU / FPGA / PIM / Photonics 等 AI 计算平台及其系统形态,可当作 “硬件侧黄皮书”。
-
📄 Roadmap on Neuromorphic Photonics Brunner et al., arXiv 2025 / Journal roadmap 虽然偏神经形态与光子计算,但对 光计算+光互连 在未来数据中心中扮演的角色给出了明确时间线与能效边界。
-
📄 From Tiny Machine Learning to Tiny Deep Learning: A Survey Somvanshi et al., arXiv 2025 Edge / TinyDL 视角的综述,重点在 小功耗 AI 芯片,对理解“边缘算力 vs 云端 AI data center 的分工”有帮助。
-
📄 Wafer-Scale Accelerators Could Redefine AI Device 期刊综述 + SemiEngineering 报道, 2025 综述 晶圆级加速器(如 Cerebras WSE)在算力密度、内存带宽、网络拓扑上的新边界,与传统 GPU 集群在机柜布置和供冷上的差异。
-
📄 Wafer-Scale AI Compute: A System Software Perspective USENIX ;login: Magazine, 2025 关注晶圆级 AI 加速器的软件栈、调度、容错,并讨论其对 机架设计和冷却布局 的影响。
芯片 & 芯粒级加速器架构
-
📄 Chiplet-Based RISC-V SoC with Modular AI Acceleration for Cloud and Edge Data Centers Guerin et al., Sensors (或相近期刊) 2025 芯粒化 RISC-V SoC + 模块化 AI 加速器,讨论 云/边数据中心 中如何通过 chiplet 组合不同算力/IO 以匹配业务。arXiv
-
📄 VUSA: Virtually Upscaled Systolic Array Architecture for Low-Power Edge AI SoCs Frontiers of Information Technology & Electronic Engineering, 2025 提出虚拟放大式脉动阵列,探索在功耗有限的 SoC 上提升有效算力,对 每机柜可塞多少 Edge 卡 的功耗/面积平衡有参考意义。arXiv
-
📄 SAPER-AI Accelerator: A Systolic Array-Based Power-Efficient Reconfigurable AI Accelerator Muslim et al., FITEE 26(9), 2025 可重构脉动阵列 AI 加速器,重点在 功耗与可重构性 的 trade-off,可直接用于估算 “某类 workload 下每瓦算力”。link.springer.com
-
📄 Open-source Stand-Alone Versatile Tensor Accelerator (VTA) Faure-Gignoux et al., arXiv 2509.19790, 2025 对原 VTA 进行重新工程,推出独立的 Python 编译栈和 open-source 实现,很适合用来做 数据中心内自研小型 AI 加速 IP 的起点。arXiv+1
-
📄 All-in-One Analog AI Hardware: On-Chip Training and Inference with Conductive-Metal-Oxide/HfOx ReRAM Devices Falcone et al., arXiv 2502.04524 + Adv. Funct. Mater. 2025 把 训练 + 推理 都搬到模拟 ReRAM 阵列中,对未来 “高能效、类脑式 AI 芯片” 的 功耗密度与冷却方式 有重要启发。arXiv
-
📄 J3DAI: A Tiny DNN-Based Edge AI Accelerator for 3D-Stacked CMOS Image Sensor Tain et al., arXiv 2506.15316, 2025 面向 3D 堆叠 CIS 的微型 DNN 加速器,体现了 3D 堆叠 + 近传感计算 的趋势,对未来机房里 “算力在边缘/前端 vs 中心数据中心” 的分工有帮助。arXiv
-
📄 All-Rounder: A Flexible AI Accelerator with Diverse Data Format Support and Morphable Structure for Multi-DNN Processing Noh et al., IEEE TVLSI, 2025(作者给出 arXiv 预印本) 多数据格式、多 DNN 处理的可变结构加速器,对 算力池如何兼容多租户 / 多模型混布 提供硬件级视角。arXiv
-
📄 Onyx: A 12-nm Programmable Accelerator for Dense and Sparse Applications Koul et al., IEEE JSSC 2025 + author PDF 作者主页提供可下载 PDF(例如 Stanford / Priyanka Raina group),展示了支持 稠密+稀疏张量计算 的 CGRA,在数据中心里可用作 “算力空洞填补” 的可编程加速器。Ritvik Sharma
-
📄 Designing Programmable Accelerators for Sparse Tensor Algebra Koul et al., IEEE Micro 45(3), 2025 从编程模型和架构角度讨论 Onyx 这类加速器如何支撑稀疏张量,对 图神经网络 / 稀疏 LLM 模块 在 DC 中的算力规划很关键。dl.acm.org
内存系统 & In/ Near-Memory Compute
-
📄 In-memory Computing-Based Deep Learning Accelerator PhD Thesis, Purdue Univ., 2025(PDF 免费) 系统梳理了基于存内计算的深度学习加速器设计(电路→架构→系统),可当作学习 “把一部分算力从 GPU 挪到内存侧” 的长文档。hammer.purdue.edu
-
📄 Effective 8T Reconfigurable SRAM for Data Integrity and In-Memory Computing Electronics (MDPI) 2025, Open Access 提出可重构 8T SRAM 单元,同时兼顾数据完整性与存内计算,对 “通用内存阵列 + 计算” 的硬件实现有指导意义。MDPI
-
📄 5-nm High-Efficiency and High-Density Digital SRAM In-Memory Computing Macros ISSCC 2025 论文 + 预印本 演示了在 5nm 工艺下高密度存内计算宏单元的 PPA 指标,可直接投入到 AI 加速 SoC on 5nm/3nm 工艺 的估算中。ui.adsabs.harvard.edu
-
📄 Analog In-Memory Computing Attention Mechanism for Fast and Energy-Efficient Large Language Models Leroux et al., Nature Computational Science 5(9), 2025(开放获取 + preprint) 设计了面向 LLM attention 的模拟存内计算 KV-cache 结构,实现对 GPU 的 注意力模块卸载,能显著降低 LLM 推理中的算力/带宽占用。nature.com
-
📄 AI-native Memory Architectures(专题) EmergentMind, 2025 收集了自 2020–2025 大量 存内计算 / 新型存储 / RAN-style 记忆体系 工作,对“未来 GPU 不是核心瓶颈,内存和 KV cache 才是”有系统整理。Emergent Mind
Rack / 集群 / 资源解耦 与 加速器协同
-
📄 On the Impact of Intra-node Communication in the Performance of Supercomputer and Data Center Interconnection Networks Tarraga-Moreno et al., arXiv 2502.20965, 2025 系统分析 节点内 (NVLink/NVSwitch) 带宽 vs 节点间 (Ethernet/IB) 网络 的相互影响,为选择 scale-up vs scale-out 方案提供硬数据。arXiv
-
📄 EDAN: Towards Understanding Memory Parallelism and Latency Sensitivity in HPC Shen et al., ICS 2025(Open PDF) 借助 Execution DAG 分析,量化应用对 远程内存 / 资源解耦延迟 的敏感度,直接可用于评估 CXL/内存池化对 AI workload 的影响。hpcrl.GitHub.io
-
📄 Acceleration of Large Language Models with Emerging Memory Technologies KC et al., IEEE COINS 2025 介绍 无线芯粒 LLM 加速器 + 新型内存 组合,对 AI DC 中 “加速器+内存芯粒” 的封装/布线/功耗密度做了系统分析。computer.org
-
📄 Algorithmic Techniques for GPU Scheduling Chab et al., Algorithms (MDPI) 18(7), 2025 – Open Access 站在 GPU 调度算法视角讨论 LLM 等 workload 如何压榨集群资源,对 如何从软件侧提升加速集群利用率 有实践价值。MDPI
-
📄 AI Accelerators Moving Out From Data Centers Semiconductor Engineering, 2025 专栏 讨论 AI 加速器从中心 DC 迁移到边缘/客户端对 数据中心算力规划、冷却与供电需求 的影响。Semiconductor Engineering
-
📄 Co-Designing Data Center Architecture to Support LLMs Intel & Georgia Tech, SemiEngineering 技术文 2025 对前文《Scaling Intelligence》做工程导向解读,将论文中的公式映射到 真实 DC 建设:机架功率、网络 oversubscription、冷却冗余 等指标。Semiconductor Engineering
-
📄 EDAN Slides: Resource Disaggregation & Memory Latency in HPC/Datacenters ICS 2025 Tutorial Slides, ETH Zürich Slide 形式非常直观展示 资源解耦架构 (CPU / Memory / GPU 机柜) 对延迟与能耗的影响,可直接拿来给团队做分享。spcl.inf.ethz.ch
-
📄 One Kernel for All Your GPUs Hazy Research Blog, 2025 通过实际 LLM 算子优化,指出 瓶颈正快速从算力转向通信,并用具体数字比较 A100→B200 在算力 vs NVLink/网络提升的比例。hazyresearch.stanford.edu
-
📄 GPU Deployments: The Definitive Guide for Enterprise AI Infrastructure Introl Blog, 2025 对企业 GPU 集群部署给出非常工程化的 check-list(机架功率、冷却、网络拓扑、存储),很适合与学术论文交叉对照。Introl
互连 / 光电融合 / CPO & HBM 视角
-
📄 Co-Packaged Optics — A Deep Dive APNIC Blog, 2025 用工程语言解释 CPO 的架构、功耗与布线优势,对 “GPU/ASIC + CPO 封装后机架长什么样” 有图有字。APNIC Blog
-
📄 Enabling the Future of AI: Innovation for Next-Gen Data Centers Lumentum Whitepaper, 2025 厂商视角整理 800G/1.6T 光模块、CPO、硅光 对 AI DC 的演进路线,重点是功耗、布板与可维护性。lumentum.com
-
📄 Ayar Labs and Alchip Co-Packaged Optics Solution for AI Datacenter Scale-Up Ayar Labs 技术简报, 2025 描述 加速器芯片 + 光 IO 芯粒 + CPO 的封装形式,给出了功耗和带宽数字,很适合用来估算 “每机柜可堆多少 AI 卡”。ayarlabs.com
-
📄 Co-Packaged Optics Test Challenges for Datacenter Technology of the Future Semiconductor Digest, 2025 从测试难度角度解释 CPO 部署的工程风险,对 data center 架构师理解 CPO 成熟度/维护成本 很有帮助。semiconductor-digest.com
-
📄 Marvell Showcases New Technology Innovations for Accelerated Infrastructure at ECOC 2025 Marvell Press Release, 2025 展示支持 AI DC 的 共封装光 / ZR+ 模块 / 高速交换芯片 等产品组合,从器件层给出数据中心互连的 “产品级” 选项。Marvell Technology, Inc.
-
📄 NVIDIA Outlines Plans for Using Light for Communication Between AI GPUs by 2026 Tom’s Hardware, 2025 披露 NVIDIA 在 光互连 GPU 上的路线图,对规划 2–3 年后机房换代时非常关键。Tom's Hardware
-
📄 AI’s Rapid Growth: The Crucial Role of High-Bandwidth Memory Semiconductor Engineering, 2025 分析 HBM 在 AI 加速器中的功耗、封装和产能瓶颈,指出 HBM 而非算力本身 会成为机房密度和成本的主要推手。Semiconductor Engineering
1298

被折叠的 条评论
为什么被折叠?



