最新AI Data Centers必读资料汇集（顶会顶刊权威报告）

最新推荐文章于 2025-12-04 15:03:47 发布

原创最新推荐文章于 2025-12-04 15:03:47 发布 · 783 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

基础篇

经典必读

The Datacenter as a Computer: Designing Warehouse-Scale Machines (Third Edition) — 类型：书籍（2018，Morgan & Claypool）pages.cs.wisc.edu 简要说明：由 Google 工程领袖撰写的“仓库规模计算机”教科书，系统介绍超大规模数据中心（WSC）的设计原理，包括基础设施、软硬件协同与性能优化 pages.cs.wisc.edu。适合希望全面了解数据中心架构演进与设计权衡的读者。标签：#overview #基础
Data Center Handbook: Plan, Design, Build, and Operations of a Smart Data Center （第二版） — 类型：书籍（2021，Wiley）vitalsource.com 简要说明：覆盖数据中心规划、设计、建设和运营各方面的权威手册，由业界专家合著 vitalsource.com。内容涵盖机房选址、电力与制冷、网络架构、安全与运维等，是工程师和管理者的综合参考指南。适合系统学习数据中心工程实践与最佳方案。标签：#overview #设计指南
Uptime Institute Global Data Center Survey — 类型：行业报告（2022，Uptime Institute）uptimeinstitute.com 简要说明：Uptime Institute 每年发布的数据中心行业调查报告，涵盖设施可靠性、能源效率、运维实践和新技术采用等趋势 uptimeinstitute.com。通过全球调研数据提供业界现状洞察，例如停机事件分析、PUE 水平、人员短缺等。适合把握数据中心宏观发展趋势和业界基准。标签：#industry #趋势
ANSI/TIA-942 Data Center Infrastructure Standard— 类型：标准（2005/2017/2023，TIA）tiaonline.org 简要说明：TIA-942 是全球采用的数据中心基础设施标准，涵盖选址、建筑布局、布线、供配电、制冷、安全等要求。自 2005 年发布以来多次更新（最新 TIA-942-C 版发布于 2023 年）以反映技术进步和边缘数据中心等新趋势。适合用于数据中心设计规划的规范参考。标签：#architecture#标准
Open Compute Project (OCP)— 类型：开放社区/规范（2011，OCP 基金会）datacenterknowledge 简要说明：由 Facebook 发起的开放计算项目，公开分享超大规模数据中心服务器、机架、电源和散热设计。OCP 推动了 21 英寸开放机架、整机柜供电、风扇墙等创新，以降低能耗和成本。许多公司加入该社区共同制定开源硬件规范，使数据中心设计更标准化、高效化。标签：#architecture#开放硬件

整体分析

[Paper · 2025] Rearchitecting Datacenter Lifecycle for AI: A TCO-Driven Framework (arXiv:2509.26534) 用完整 TCO 框架重构 AI 数据中心从选址、建设、运维到退役的生命周期，给出「AI DC 作为长期资产」的系统性视角，非常适合作为宏观入门。 arXiv
[TR · 2025] Energy and AI（IEA 世界能源展望特别报告） IEA 首份系统分析 AI 与全球能源关系的重量级报告，里面有单独章节讨论 AI 数据中心的能耗情景、地区差异与政策含义，是理解「AI+电力」大背景的必读材料。 IEA
[Paper · 2025] Electricity Demand and Grid Impacts of AI Data Centers: Challenges and Prospects (arXiv:2509.07218) 从电力系统视角系统评估 AI 数据中心的负荷特性、并网挑战与可能的缓解路径，用量化模型回答「AI DC 到底会吃掉多少电」。 arXiv
[TR · 2025] AI’s Power Requirements Under Exponential Growth（RAND 报告）用情景建模分析 AI 算力按指数扩张时，单个与多地点数据中心的电力需求区间，讨论「集中 vs. 分布式训练」对电网压力的差异。 rand.org
[Paper · 2025] Trends in AI Supercomputers (arXiv:2504.16026) 面向「AI 超级计算机」的综述型论文，梳理近年的大模型训练集群在算力规模、互连、能耗和系统设计上的演进趋势，把 AI data center 放到超算一脉来看。 arXiv
DATA CENTERS IN THE AGE OF AI: A Tutorial Survey on Infrastructure, Sustainability, and Emerging Challenges (2025) TechRxiv tutorial 型 survey，系统梳理 AI 数据中心整体基础设施：厂房/供电/制冷、机架功率密度、GPU/TPU 集群、光互连、以及碳排与政策等，偏「大局观 + 工程实务」。
Scaling Intelligence: Designing Data Centers for Next-Gen Language Models (2025) 典型的机房级 co-design 论文：同时优化 FLOPS、HBM 带宽容量、两级 vs FullFlat 光互连拓扑、scale-up/scale-out 域规模与并行策略（TP/PP/DP/MoE）。给出从 8→1024 GPU HBD、FullFlat 光网络等多种 AI 数据中心架构下 MFU/吞吐的对比，是理解「未来 AI 机房长什么样」非常核心的一篇。
AI Data Centers Need Pioneers to Deliver Scalable Power via Offgrid AI (2025) 探讨通过“离网”电源（独立可再生能源、微电网等）给 GW 级 AI 数据中心供电的架构和商业模式，对电源侧设计有启发（比如是不是要把算力放在产能富余的地区再用网络迁移数据）。
Edge AI: Architecture, Applications, and Challenges (2025) 侧重点在 Edge-Cloud 分层架构：设备层 / 边缘节点 / 云数据中心三层体系，讨论哪些 AI 负载在边缘、哪些进 AI DC，对整体系统架构和流量走向有参考价值。

深入篇

体系结构 & 集群网络入门

[Paper · 2025] InfiniteHBD: Building Datacenter-Scale High-Bandwidth Domain for LLM with Optical Circuit Switching Transceivers（SIGCOMM’25）以 LLM 训练为目标，提出在数据中心内部用光路交换构建「高带宽域」，是理解 AI DC 网络设计 / 专用互连的高级入门案例。 arXiv
[Paper · 2025] Towards Easy and Realistic Network Infrastructure Testing for Large-scale Machine Learning（NSDI’25, Genie）提供一个可以在实验环境中「拟真」大规模 ML 集群网络的工具，用来评估训练作业在不同网络条件下的表现，是做 AI DC 网络工程和实验研究时的必备基建。 arXiv
[Paper · 2025] DCPerf: An Open-Source, Battle-Tested Performance Modeling Framework for Large-Scale Datacenter Applications（ISCA’25）开源的 DC 性能建模框架，支持对大规模应用（含 ML 作业）做结构化性能预测，是从「单机 profiling」走向「数据中心级容量规划」的经典工具。 dl.acm.org
[Paper · 2025] PRISM: Probabilistic Runtime Insights and Scalable Performance Modeling for Large-Scale Distributed Training（arXiv:2510.15596）建立大规模分布式训练的概率性能模型，刻画作业在集群上的尾延迟与资源利用，可以帮助你从「作业运行日志」跳升到可解释的系统级模型。 arXiv
[Paper · 2025] Revisiting Reliability in Large-Scale Machine Learning Research Clusters（HPCA’25, Meta）以大规模 ML 研究集群为对象做系统级可靠性分析，量化硬件软故障、作业失败模式，是理解「AI DC 可靠性设计」和 SRE 工程的很好切入点。 kokolis2

性能分析

DCPerf: An Open-Source, Battle-Tested Performance Benchmark Suite for Datacenter Workloads (ISCA 2025) Meta 的开源基准套件，用于 hyperscale 数据中心 CPU 工作负载建模，被用于真实采购决策；对 AI DC 中非 AI 负载（KV-store / 视频 / DB 等）的性能/能耗建模很关键。 👉 代码仓库：facebookresearch/DCPerf
Application identification in data centres: a traffic driven approach to classification (UCAM-CL-TR-1000, 2025) 剑桥的技术报告，用网络流量模式对数据中心中的应用进行识别和分类，包括 AI 训练、MapReduce 等，对机房内流量工程 & 隔离有帮助，能辅助做拓扑与 QoS 设计。
Revisiting Reliability in Large-Scale Machine Learning Research Clusters (HPCA 2025) 对大规模 ML 集群的故障模式、节点/机架级失效率进行实测与建模，给出对 GPU 集群和 AI 超算可靠性改进的系统级建议，可直接影响机房冗余设计、job 调度和拓扑冗余。
Miniature: Fast AI Supercomputer Networks Simulation on FPGAs (APNet 2025) 使用 FPGA 快速模拟 AI 超算网络的性能，用于探索大规模 GPU fabric 的架构设计空间，是做 AI DC 网络拓扑和拥塞控制前的一个高保真仿真工具。
Genie: Towards Easy and Realistic Network Infrastructure Testing for Large-Scale Machine Learning Systems(NSDI 2025) 面向大规模 ML 的网络基础设施测试框架，简化在真实 AI 训练 workload 下对数据中心网络做压力和鲁棒性测试，非常适合在设计/升级 AI DC 网络时使用。

架构参考

[The Ultra-Scale Playbook: Training LLMs on GPU Clusters (2025)] 被 Scaling Intelligence 多次引用，对超大规模 GPU 集群训练的拓扑、并行策略和调度给出实践经验和配置建议，是设计训练集群拓扑与并行参数的「实践手册」。
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures (2025) DeepSeek 团队关于 DeepSeek-V3 训练基础设施的技术报告，包含对硬件瓶颈、网络架构以及未来 AI 架构方向的反思，对「大模型团队怎么设计自建 AI 超算集群」有很直接的参考价值。
Data-Centric Infrastructure Cluster Reference Model 1.0 (IOWN Global Forum, 2025) IOWN GF 发布的数据中心集群参考架构，提出 Data-Centric Infrastructure (DCI) 的 cluster-level blueprint：计算节点、可组合存储、光互连、以及控制平面，适合作为未来光互连 / disaggregated AI DC 的设计起点。
Ultra Ethernet Consortium – Architecture & Specification(2025) UEC 给出的新一代高带宽、低延迟以太网规范，显式针对 AI/HPC 负载（大规模 AllReduce 等）做了设计，对「用以太网而不是 InfiniBand 搭 AI Fabric」很关键。

教程 / Workshop / 实操资料

MICRO 58 (2025) 系列教程 / Workshop

🎓 Tutorial: AI Accelerators at Scale – Architecture, Design, Resilience, and Operational Challenges MICRO 58 Tutorial, 2025 从单芯片 → 芯粒 → 机架 → 数据中心全栈讲 AI 加速器在大规模部署中的架构与运行挑战，非常贴合“算力视角看机房设计” 的主题。micro
🎓 Tutorial: Compilers for AI Accelerators / End-to-End Compiler Infrastructure for Emerging Tensor Accelerators MICRO 58 Tutorial + ACT 项目, 2025 讲如何为新型张量加速器构建完整编译链，对自研加速器进入数据中心生产环境的关键软件栈有详细说明。act-compiler.GitHub.io
🎓 Tutorial: TeAAL and HiFiber – Precise and Concise Descriptions of (Sparse) Tensor Algebra Accelerators MICRO 58 Tutorial, 2025 面向稀疏张量加速器的形式化描述与分析工具，有助于将高层 workload 需求精确映射到硬件资源规划。TeAAL
🧪 Workshop/Tutorial: Vortex – An Open-Source RISC-V GPGPU for Architecture Research MICRO 58 Workshop + Hands-on, 2025 提供开源 RISC-V GPU + 工具链，能用来搭建小型 GPU 集群原型，研究调度、功耗和互连对系统的影响。vortex
🧪 Workshop: Scarab Microarchitectural Simulator MICRO 58 Workshop, 2025 提供可扩展的微结构仿真平台，可插入自定义 GPU/AI 加速器模型，用于估算机架/机房级功耗和性能。hlitz.GitHub.io+1
🧪 Workshop: HiPChips – High Performance Chiplet and Interconnect Architectures MICRO 58 Workshop, 2025 聚焦 chiplet + 高速互连，讨论 chiplet 化 GPU/加速器在封装、功耗、布线上的系统性影响，和 DC 架构高度相关。hipchips.GitHub.io

GTC / 业界技术 Session

🎓 NCCL: The Inter-GPU Communication Library Powering Multi-GPU AI NVIDIA GTC 2025 Session S72583, Sylvain Jeaugey 深入讲解 NCCL + NVLink/NVSwitch 在多 GPU 集群中的使用，对理解 AI 加速集群里的集体通信瓶颈很关键。NVIDIA
🎓 Why NVIDIA H200 and NCCL Are Reshaping AI Training Efficiency at Scale Uvation 技术文章, 2025 概述 H200 + 新一代 NVSwitch fabric 在大规模训练上的优势，侧重训练效率 vs 功耗 vs 节点数量的工程视角。uvation.com

专门面向 AI 加速器 & AI Data Center 的 Tutorials

AI Accelerators at Scale – Architecture, Design, Resilience, and Operational Challenges (MICRO 58 Tutorial, 2025) MICRO 2025 的半天 tutorial，围绕 Meta MTIA 等大规模 AI 加速器，从架构、设计、可靠性到运维挑战进行系统讲解。面向做 AI DC 的架构师和系统工程师，非常贴合「从芯片到机房」的视角。
Rack-Scale to Data Center-Scale AI Building Block Solutions (GTC 2025, Session S74306) Supermicro + NVIDIA 在 GTC 2025 的 session，讲解如何用 GB200/Blackwell 节点、NVLink/Switch、液冷机柜等构建 rack 到 data center 级的 AI 架构。提供视频与（通常）可下载的 PDF slides，需要 NVIDIA 账号但免费。
Tomorrow AI Datacenter with CXL – Invited Talk (2025) 由 Myoungsoo Jung 等在 2025 年做的 keynote，围绕 CXL 在未来 AI 数据中心中的角色，包括内存池化、加速器直连等，对 disaggregated memory / CXL 机房架构有很好启发。camelab.org
Vortex / Ventus: Open-source RISC-V GPGPU and GPU Programming Tutorial (MICRO 2025 Workshop & Tutorial) 讲解开源 GPGPU 栈（Vortex, Ventus）与 GPU 编程，在理解「GPU 芯片/板卡行为」与做系统级模拟时很有用。microarch.org
Scarab Microarchitectural Simulator Tutorial (MICRO 2025) 介绍 Scarab 微架构模拟器，用于 CPU/加速器 pipeline 的高精度建模，常被用于数据中心 CPU/GPU 上的 workload 分析和 co-design。microarch.org
TeAAL & HiFiber: Precise and Concise Descriptions of (Sparse) Tensor Algebra Accelerators (MICRO 2025 Tutorial) 面向稀疏张量加速器的描述与建模，对在机房层面规划「什么类型的稀疏加速器适合部署」和做架构仿真有用。microarch.org

进阶篇（Compute & Accelerator 视角）

AI Accelerators for Large Language Model Inference: Architecture Analysis and Scaling Strategies (2025) 对主流商用 AI 加速器（GPU、TPU、wafer-scale engine 等）做系统对比，包括内存层次、互连与扩展策略，并分析不同并行策略下的扩展瓶颈，为选型与机房配比（某类卡适合训练/推理）提供依据。
Chiplet-Based RISC-V SoC with Modular AI Acceleration (2025) 基于 chiplet 的 RISC-V SoC + 模块化 AI 加速设计，展示如何在硅片内实现可扩展 AI 模块、HBM3、UCIe 互连等，为未来 chiplet 化 AI 节点的机架布局和互连留出接口。
VUSA: Virtually Upscaled Systolic Array Architecture to Exploit Unstructured Sparsity in AI Acceleration (2025) 通过虚拟放大 systolic array，在不增加实体 MAC 数量的情况下提升利用稀疏性的算力密度；从机房视角看，这类设计意味着在给定功率密度下能堆更多有效 FLOPS，有利于高密度 AI rack 设计。
Architecture, Simulation and Software Stack to Support Post-CMOS Accelerators: The ARCHYTAS Project (2025) 介绍光电、存内计算、类脑等后 CMOS 加速器与系统集成的整体架构和软件栈，对未来非传统加速器进入数据中心的系统集成与 co-sim 提供参考。
Roadmap on Neuromorphic Photonics (2025) 从光子互连与类脑计算的角度讨论 AI 加速器与光子 interposer 集成路线图，为高带宽、低功耗机房级互连的长期技术方向提供视角。
NVIDIA DGX Spark: A Grace Blackwell AI Supercomputer on Your Desk (2025) 官方系统页面和技术资料介绍一台「桌面级 AI 超算」的节点/机箱架构（GB200、NVLink、液冷等），从单节点扩展到 rack / mini-cluster，是理解节点→机架→机房设计递进关系的一个不错案例。arXiv
Lightmatter Passage L200: Co-Packaged Optics for AI (2025) 产品技术 brief，说明用于 AI 负载的 CPO（co-packaged optics）能力指标和系统集成方式，在 Scaling Intelligence 中被用于构建 FullFlat 光互连的系统模型 arXiv。适合用来理解「光电互连在 AI DC 中具体怎么落地」。

总览 / Survey / 大图景

📄 AI Accelerators for Large Language Model Inference: Architecture Analysis and Scaling Strategies Amit Sharma et al., arXiv 2025 | 标签：LLM 推理加速器综述 / Hopper+TPU+Trainium / 能效 & 吞吐对比 | 聚焦 LLM 推理的 GPU/ASIC/PIM 加速架构，对比算力、带宽、能效，为做 “每 Token 需要多少瓦 / 多少机柜” 提供直接基准。
📄 Scaling Intelligence: Designing Data Centers for Next-Gen Language Models Intel & Georgia Tech, arXiv 2025 从模型→集群→数据中心多层级做 co-design，给出 LLM 规模、GPU 配比、网络拓扑、冷却/供电的系统化推导，非常适合直接映射到机房总体规划。
📄 Insights into DeepSeek-V3: Scaling Challenges, Reflections, and Innovations for Future AI Architectures DeepSeek 团队, arXiv 2025 结合大规模训练实战，总结 MoE + 万卡集群在算力、网络、调度和电力侧的坑与经验，对“如何让加速卡跑满”有很多一线教训。
📄 Lincoln AI Computing Survey (LAICS) and Trends in AI Compute Systems MIT Lincoln Lab, Tech Report + Slides, 2025 非常系统地盘点 GPU / TPU / ASIC / NPU / FPGA / PIM / Photonics 等 AI 计算平台及其系统形态，可当作 “硬件侧黄皮书”。
📄 Roadmap on Neuromorphic Photonics Brunner et al., arXiv 2025 / Journal roadmap 虽然偏神经形态与光子计算，但对光计算+光互连在未来数据中心中扮演的角色给出了明确时间线与能效边界。
📄 From Tiny Machine Learning to Tiny Deep Learning: A Survey Somvanshi et al., arXiv 2025 Edge / TinyDL 视角的综述，重点在小功耗 AI 芯片，对理解“边缘算力 vs 云端 AI data center 的分工”有帮助。
📄 Wafer-Scale Accelerators Could Redefine AI Device 期刊综述 + SemiEngineering 报道, 2025 综述晶圆级加速器（如 Cerebras WSE）在算力密度、内存带宽、网络拓扑上的新边界，与传统 GPU 集群在机柜布置和供冷上的差异。
📄 Wafer-Scale AI Compute: A System Software Perspective USENIX ;login: Magazine, 2025 关注晶圆级 AI 加速器的软件栈、调度、容错，并讨论其对机架设计和冷却布局的影响。

芯片 & 芯粒级加速器架构

📄 Chiplet-Based RISC-V SoC with Modular AI Acceleration for Cloud and Edge Data Centers Guerin et al., Sensors (或相近期刊) 2025 芯粒化 RISC-V SoC + 模块化 AI 加速器，讨论云/边数据中心中如何通过 chiplet 组合不同算力/IO 以匹配业务。arXiv
📄 VUSA: Virtually Upscaled Systolic Array Architecture for Low-Power Edge AI SoCs Frontiers of Information Technology & Electronic Engineering, 2025 提出虚拟放大式脉动阵列，探索在功耗有限的 SoC 上提升有效算力，对每机柜可塞多少 Edge 卡的功耗/面积平衡有参考意义。arXiv
📄 SAPER-AI Accelerator: A Systolic Array-Based Power-Efficient Reconfigurable AI Accelerator Muslim et al., FITEE 26(9), 2025 可重构脉动阵列 AI 加速器，重点在功耗与可重构性的 trade-off，可直接用于估算 “某类 workload 下每瓦算力”。link.springer.com
📄 Open-source Stand-Alone Versatile Tensor Accelerator (VTA) Faure-Gignoux et al., arXiv 2509.19790, 2025 对原 VTA 进行重新工程，推出独立的 Python 编译栈和 open-source 实现，很适合用来做数据中心内自研小型 AI 加速 IP 的起点。arXiv+1
📄 All-in-One Analog AI Hardware: On-Chip Training and Inference with Conductive-Metal-Oxide/HfOx ReRAM Devices Falcone et al., arXiv 2502.04524 + Adv. Funct. Mater. 2025 把训练 + 推理都搬到模拟 ReRAM 阵列中，对未来 “高能效、类脑式 AI 芯片” 的功耗密度与冷却方式有重要启发。arXiv
📄 J3DAI: A Tiny DNN-Based Edge AI Accelerator for 3D-Stacked CMOS Image Sensor Tain et al., arXiv 2506.15316, 2025 面向 3D 堆叠 CIS 的微型 DNN 加速器，体现了 3D 堆叠 + 近传感计算的趋势，对未来机房里 “算力在边缘/前端 vs 中心数据中心” 的分工有帮助。arXiv
📄 All-Rounder: A Flexible AI Accelerator with Diverse Data Format Support and Morphable Structure for Multi-DNN Processing Noh et al., IEEE TVLSI, 2025（作者给出 arXiv 预印本）多数据格式、多 DNN 处理的可变结构加速器，对算力池如何兼容多租户 / 多模型混布提供硬件级视角。arXiv
📄 Onyx: A 12-nm Programmable Accelerator for Dense and Sparse Applications Koul et al., IEEE JSSC 2025 + author PDF 作者主页提供可下载 PDF（例如 Stanford / Priyanka Raina group），展示了支持稠密+稀疏张量计算的 CGRA，在数据中心里可用作 “算力空洞填补” 的可编程加速器。Ritvik Sharma
📄 Designing Programmable Accelerators for Sparse Tensor Algebra Koul et al., IEEE Micro 45(3), 2025 从编程模型和架构角度讨论 Onyx 这类加速器如何支撑稀疏张量，对图神经网络 / 稀疏 LLM 模块在 DC 中的算力规划很关键。dl.acm.org

内存系统 & In/ Near-Memory Compute

📄 In-memory Computing-Based Deep Learning Accelerator PhD Thesis, Purdue Univ., 2025（PDF 免费）系统梳理了基于存内计算的深度学习加速器设计（电路→架构→系统），可当作学习 “把一部分算力从 GPU 挪到内存侧” 的长文档。hammer.purdue.edu
📄 Effective 8T Reconfigurable SRAM for Data Integrity and In-Memory Computing Electronics (MDPI) 2025, Open Access 提出可重构 8T SRAM 单元，同时兼顾数据完整性与存内计算，对 “通用内存阵列 + 计算” 的硬件实现有指导意义。MDPI
📄 5-nm High-Efficiency and High-Density Digital SRAM In-Memory Computing Macros ISSCC 2025 论文 + 预印本演示了在 5nm 工艺下高密度存内计算宏单元的 PPA 指标，可直接投入到 AI 加速 SoC on 5nm/3nm 工艺的估算中。ui.adsabs.harvard.edu
📄 Analog In-Memory Computing Attention Mechanism for Fast and Energy-Efficient Large Language Models Leroux et al., Nature Computational Science 5(9), 2025（开放获取 + preprint）设计了面向 LLM attention 的模拟存内计算 KV-cache 结构，实现对 GPU 的注意力模块卸载，能显著降低 LLM 推理中的算力/带宽占用。nature.com
📄 AI-native Memory Architectures（专题） EmergentMind, 2025 收集了自 2020–2025 大量存内计算 / 新型存储 / RAN-style 记忆体系工作，对“未来 GPU 不是核心瓶颈，内存和 KV cache 才是”有系统整理。Emergent Mind

Rack / 集群 / 资源解耦与加速器协同

📄 On the Impact of Intra-node Communication in the Performance of Supercomputer and Data Center Interconnection Networks Tarraga-Moreno et al., arXiv 2502.20965, 2025 系统分析节点内 (NVLink/NVSwitch) 带宽 vs 节点间 (Ethernet/IB) 网络的相互影响，为选择 scale-up vs scale-out 方案提供硬数据。arXiv
📄 EDAN: Towards Understanding Memory Parallelism and Latency Sensitivity in HPC Shen et al., ICS 2025（Open PDF）借助 Execution DAG 分析，量化应用对远程内存 / 资源解耦延迟的敏感度，直接可用于评估 CXL/内存池化对 AI workload 的影响。hpcrl.GitHub.io
📄 Acceleration of Large Language Models with Emerging Memory Technologies KC et al., IEEE COINS 2025 介绍无线芯粒 LLM 加速器 + 新型内存组合，对 AI DC 中 “加速器+内存芯粒” 的封装/布线/功耗密度做了系统分析。computer.org
📄 Algorithmic Techniques for GPU Scheduling Chab et al., Algorithms (MDPI) 18(7), 2025 – Open Access 站在 GPU 调度算法视角讨论 LLM 等 workload 如何压榨集群资源，对如何从软件侧提升加速集群利用率有实践价值。MDPI
📄 AI Accelerators Moving Out From Data Centers Semiconductor Engineering, 2025 专栏讨论 AI 加速器从中心 DC 迁移到边缘/客户端对数据中心算力规划、冷却与供电需求的影响。Semiconductor Engineering
📄 Co-Designing Data Center Architecture to Support LLMs Intel & Georgia Tech, SemiEngineering 技术文 2025 对前文《Scaling Intelligence》做工程导向解读，将论文中的公式映射到真实 DC 建设：机架功率、网络 oversubscription、冷却冗余等指标。Semiconductor Engineering
📄 EDAN Slides: Resource Disaggregation & Memory Latency in HPC/Datacenters ICS 2025 Tutorial Slides, ETH Zürich Slide 形式非常直观展示资源解耦架构 (CPU / Memory / GPU 机柜) 对延迟与能耗的影响，可直接拿来给团队做分享。spcl.inf.ethz.ch
📄 One Kernel for All Your GPUs Hazy Research Blog, 2025 通过实际 LLM 算子优化，指出瓶颈正快速从算力转向通信，并用具体数字比较 A100→B200 在算力 vs NVLink/网络提升的比例。hazyresearch.stanford.edu
📄 GPU Deployments: The Definitive Guide for Enterprise AI Infrastructure Introl Blog, 2025 对企业 GPU 集群部署给出非常工程化的 check-list（机架功率、冷却、网络拓扑、存储），很适合与学术论文交叉对照。Introl

互连 / 光电融合 / CPO & HBM 视角

📄 Co-Packaged Optics — A Deep Dive APNIC Blog, 2025 用工程语言解释 CPO 的架构、功耗与布线优势，对 “GPU/ASIC + CPO 封装后机架长什么样” 有图有字。APNIC Blog
📄 Enabling the Future of AI: Innovation for Next-Gen Data Centers Lumentum Whitepaper, 2025 厂商视角整理 800G/1.6T 光模块、CPO、硅光对 AI DC 的演进路线，重点是功耗、布板与可维护性。lumentum.com
📄 Ayar Labs and Alchip Co-Packaged Optics Solution for AI Datacenter Scale-Up Ayar Labs 技术简报, 2025 描述加速器芯片 + 光 IO 芯粒 + CPO 的封装形式，给出了功耗和带宽数字，很适合用来估算 “每机柜可堆多少 AI 卡”。ayarlabs.com
📄 Co-Packaged Optics Test Challenges for Datacenter Technology of the Future Semiconductor Digest, 2025 从测试难度角度解释 CPO 部署的工程风险，对 data center 架构师理解 CPO 成熟度/维护成本很有帮助。semiconductor-digest.com
📄 Marvell Showcases New Technology Innovations for Accelerated Infrastructure at ECOC 2025 Marvell Press Release, 2025 展示支持 AI DC 的共封装光 / ZR+ 模块 / 高速交换芯片等产品组合，从器件层给出数据中心互连的 “产品级” 选项。Marvell Technology, Inc.
📄 NVIDIA Outlines Plans for Using Light for Communication Between AI GPUs by 2026 Tom’s Hardware, 2025 披露 NVIDIA 在光互连 GPU 上的路线图，对规划 2–3 年后机房换代时非常关键。Tom's Hardware
📄 AI’s Rapid Growth: The Crucial Role of High-Bandwidth Memory Semiconductor Engineering, 2025 分析 HBM 在 AI 加速器中的功耗、封装和产能瓶颈，指出 HBM 而非算力本身会成为机房密度和成本的主要推手。Semiconductor Engineering