由于智能体 AI(Agentic AI)和推理能力的提升,现在所需的计算量至少是去年此时预估的 100 倍。
推理本质上是一座工厂在生产 token,而工厂的价值取决于能否创造收入和利润。因此,这座工厂必须以极致的效率打造。
1.1 EF FP4 Inference:在进行 FP4 精度的推理任务时,能够达到 1.1 ExaFLOPS(每秒百亿亿次浮点运算)。
0.36 EF FP8 Training:在进行 FP8 精度的训练任务时,性能为 1.2 ExaFLOPS。
1.5X GB300 NVL72:与 GB200 NVL72 相比,性能为 1.5 倍。
20 TB HBM3:配备了 20TB HBM 内存,是前代的 1.5 倍
40 TB Fast Memory:拥有 40TB 的快速内存,是前代的 1.5 倍。
14.4 TB/s CX8:支持 CX8,带宽为 14.4 TB/s,是前代的 2 倍。
3.6 EF FP4 Inference:在进行 FP4 精度的推理任务时,能够达到 3.6 ExaFLOPS(每秒百亿亿次浮点运算)。
1.2 EF FP8 Training:在进行 FP8 精度的训练任务时,性能为 1.2 ExaFLOPS。
3.3X GB300 NVL72:与 GB300 NVL72 相比,性能提升了 3.3 倍。
13 TB/s HBM4:配备了 HBM4,带宽为 13TB/s。
75 TB Fast Memory:拥有 75 TB 的快速内存,是前代的 1.6 倍。
260 TB/s NVLink6:支持 NVLink 6,带宽为 260 TB/s,是前代的 2 倍。
28.8 TB/s CX9:支持 CX9,带宽为 28.8 TB/s,是前代的 2 倍。
15 EF FP4 Inference:在 FP4 精度下进行推理任务时,性能达到 15 ExaFLOPS。
5 EF FP8 Training:在 FP8 精度下进行训练任务时,性能为 5 ExaFLOPS。
14X GB300 NVL72:相比 GB300 NVL72,性能提升 14 倍。
4.6 PB/s HBM4e:配备 HBM4e 内存,带宽为 4.6 PB/s。
365 TB Fast Memory:系统拥有 365 TB 的快速内存,是前代的 8 倍。
1.5 PB/s NVLink7:支持 NVLink 7,带宽为 1.5 PB/s,是前代的 12 倍。
115.2 TB/s CX9:支持 CX9,带宽为 115.2 TB/s,是前代的 8 倍。
128 端口 800Gb/s或 512 端口 200Gb/s 配置,总带宽达 100Tb/s
512 端口 800Gb/s或 2048 端口200Gb/s配置,总吞吐量达 400Tb/s
未来将没有数据中心,只有 AI 工厂。
通信人家园 (https://test.txrjy.com/) | Powered by C114 |