马斯克 xAI 坐拥 55 万张英伟达 GPU 但算力利用率仅 11%-人工智能的专栏

马斯克 xAI 坐拥 55 万张英伟达 GPU 但算力利用率仅 11%

2026-05-05 09:56:13栏目：默认栏目 IP属地：IP未知

5 月 3 日消息，据《The Information》报道，马斯克旗下人工智能公司 xAI——也就是 Grok 大模型的幕后团队，目前手头上约有 55 万块英伟达 GPU（包括 H100 与 H200），但实际利用率仅有 11%。

据介绍，这些硬件目前主要部署在孟菲斯的 Colossus 超算集群中，采用液冷配置。尽管与 Blackwell 最新一代产品相比稍显老旧，但这样的体量在全球范围内依然位居前列。

然而，如此海量的硬件并未转化为有效的计算产出。该集群的实际利用率仅有 11%。当然，这并非意味着其余 89% 的 GPU 处于完全闲置状态，而是指模型的实际浮点运算利用率远远低于理论峰值。

业内人士解释称，衡量 AI 算力效率的关键指标叫做 MFU（Model FLOPs Utilization），即模型浮点运算利用率。11% 的 MFU 意味着，理论上能产生 100 份训练吞吐量的硬件，实际只产出了 11 份，大量的电力和硬件时间都消耗在了数据等待、通信开销和重新计算等环节，而没有转化为有效的训练吞吐。

面对这一数字，xAI 总裁 Michael Nicolls 在一份内部备忘录中承认其「低得尴尬」，并为团队设定了在未来几个月内将利用率拉升至 50% 的目标。

xAI 并非个例，算力利用率偏低是整个 AI 基础设施领域的行业性难题。报道指出，在超大规模集群下，软件优化跟不上硬件部署速度是普遍现象。作为对比，Meta 和谷歌在软件堆栈上投入了大量精力，因此其 GPU 利用率相对较高，但也只有约 43% 和约 46%。（来源：IT 之家）