我们通常认为软件是完全数字化的存在,是一个完全独立于“原子”世界的“位”世界。我们可以在手机上下载无限量的数据,而手机却不会因此而变重;我们可以观看数百部电影而不用接触物理磁盘;我们可以收集数百本书而不需要拥有一张纸。
但数字基础设施最终需要物理基础设施。所有这些软件都需要某种计算机来运行。所需的计算越多,所需的物理基础设施就越多.
创建一个尖端的大型语言模型需要大量的计算,既要训练模型,也要在模型完成后运行它们。训练OpenAI 的 GPT-4需要估计210 亿 petaFLOP (1 petaFLOP 是 10^15 次浮点运算)。1相比之下,iPhone 12 每秒能够进行大约 11 万亿次浮点运算(每秒 0.01 petaFLOP),这意味着如果你能够以某种方式在 iPhone 12 上训练 GPT-4,则需要 60,000 多年才能完成。在1997 年的100 Mhz Pentium 处理器上,每秒只能进行 920 万次浮点运算,理论上训练需要超过 660 亿年。而且 GPT-4 并不是一个例外,而是 AI 模型变得越来越大并且需要更多计算来创建的长期趋势的一部分。
但 GPT-4 当然不是在 iPhone 上训练的。它是在数据中心训练的,在专门设计的建筑物中,有数万台计算机及其所需的支持基础设施。随着各家公司竞相创建自己的 AI 模型,它们正在构建巨大的计算能力来训练和运行这些模型。为了满足 AI 需求的增长,亚马逊计划未来 15 年在数据中心上投资 1500 亿美元。仅在 2024 年,Meta 就计划在基础设施和数据中心上投资370 亿美元,其中大部分与 AI 相关。为 AI 公司提供云计算和计算服务的初创公司 Coreweave 已筹集数十亿美元资金来建设其基础设施,并将在 2024 年建设 28 个数据中心。所谓的“超大规模企业”,即拥有大量计算需求