第11章：Ultra-Scale 未来趋势

读完前 10 章,你掌握的是今天的方法论:Goodput、NVL72、NCCL、案例研究。这些会被用上很久,但有些东西正在变——而性能工程师如果不抬头看,3 年后会发现自己在用过时的工具解决已经不存在的问题。本章做一件事:把未来 3-5 年大概率会发生、且影响性能工程师工作方式的趋势列出来,每条带”性能工程师应该提前怎么准备”的具体建议。这不是占卜,是雷达图——告诉你哪些方向值得花时间跟进,哪些可以暂时不管。

📑 目录

1. 主题:从”砸卡”走向”协同 + 智能 + 全栈”
2. AI 与 HPC 的融合
3. AI Factories 与全球分布式计算
4. 自我改进 Agent 与算力需求曲线
5. Smart Compilers 与”AI 写 kernel”
6. Autonomous Scheduling 与 AI Co-pilot
7. 稀疏计算与条件执行成为一等公民
8. 硅光、CPO 与全球互连
9. 3D HBM 堆叠、能耗与冷却
10. CUDA Quantum 与混合经典-量子计算
11. 通往 100T 参数模型
12. 性能工程师未来 3 年的”专业雷达图”
自我检验清单
参考资料

1. 主题:从”砸卡”走向”协同 + 智能 + 全栈”

如果用一句话概括下一代 AI 系统性能工程的总主线,就是:

🌟 核心趋势:算力还会涨,但单纯堆算力会越来越打不开局面——下一阶段的杠杆来自三件事——协同(co-design 越来越深)、智能(让 AI 帮你做优化)、全栈(从 GPU 算子一路看到机房供电)。

这三件事会在本章每一节里反复出现。读完整章你会发现”未来 5 年的不同新技术”——硅光、CPO、3D HBM、CUDA Quantum、Smart Compiler、AI Agent ……——背后其实是同一组主题在不同维度上的展开。

2. AI 与 HPC 的融合

2.1 这俩本来就是不同的工种

过去 10 年,AI 工程师和 HPC(高性能科学计算)工程师走在两条平行轨道上:HPC 关心 FP64 精度、复杂的 MPI 集合通信、跨节点同步;AI 关心 BF16/FP8、NCCL AllReduce、batch 吞吐。两边的同事经常讨论同一台 GPU 但说着完全不同的语言。

2.2 但同一颗 GPU 已经把两边的活都干了

NVIDIA 公布的 Blackwell 实测:在某些气象模拟和数字孪生场景上相比 Hopper 提速 ~200×、能耗降低 ~300×——同一颗芯片同时是 AI 训练 / 推理的工具。这意味着:

学界 HPC 应用 越来越多用 AI 模型(神经网络、surrogate model)替代部分昂贵的传统数值方法
AI 训练 / 推理 越来越多借鉴 HPC 的调度、容错、数值稳定性技术

2.3 性能工程师该做的准备

📍 具体动作:

不要把”HPC vs AI” 当成两条职业轨道——未来这是同一个工种
多了解一些 HPC 的概念:MPI / SLURM / Lustre / 数值精度分析——这些会在万卡 AI 集群上重新流行
反向地,如果你出身 HPC,学一下 PyTorch + AMP + NCCL

🍎 直觉比喻:就像 10 年前”前端 vs 后端”是两个职业,现在”全栈”成了主流——AI ↔ HPC 也在合流。

3. AI Factories 与全球分布式计算

3.1 NVIDIA 反复强调的”AI Factory”概念

不再把单个数据中心当成”机房”,而是当成AI 工厂——产线是训练 / 推理 job,产品是模型权重和服务请求。下一阶段:多个 AI Factory 跨大陆联合工作。

3.2 让”跨大陆训练”成为可能的关键技术

技术	解决什么问题
NVIDIA Spectrum-X / Quantum-X 硅光	跨机房 1.6 Tbit/s 量级链路
NVLink-over-optical(预期)	NVLink 域突破单 rack,扩到机房尺度
DPU 接管网络栈(BlueField)	跨地域同步的复杂逻辑卸载到智能网卡
异步训练算法	容忍跨大陆几十毫秒延迟而不显著降收敛速度

🌟 远期愿景:把东京、伦敦、硅谷的三个百万 GPU 集群当成一个三百万 GPU 的”全球 AI Factory”——光速延迟会限制某些紧耦合训练步骤,但异步算法 + 分层并行让大部分任务可行。

3.3 性能工程师的新视野

📍 具体动作:

学会跨地域思维:不再只是”机柜内 vs 机柜外”,还有”机房内 vs 机房间 vs 跨大陆”——每一层延迟差一个数量级
关注异步训练算法:同步 SGD 在跨大陆下崩溃,异步 / 半同步 / 局部 SGD 这类方法值得深读
CDN / 分布式系统的经验在重新值钱——AI Factory 的网络架构和大型 CDN 越来越像

4. 自我改进 Agent 与算力需求曲线

4.1 训练 FLOPs 仍在指数上升

模型	训练 FLOPs(量级)
GPT-3(2020)	~3 × 10^23
GPT-4(2023)	~2 × 10^25
下一代 frontier 模型(预期 2026-2028)	10^27 - 10^28

每代 +2 个数量级。承载这种规模的数据中心、电力、网络,都需要重新设计。

4.2 “永久学习”的 Agent 范式

下一阶段的研究方向之一是 “agent 不再有训练 / 部署边界”——模型每天用新生成的合成数据更新自己的权重,7×24 持续在线学习。这对基础设施提出新要求:

训练和推理工作负载在同一集群里同时跑
Checkpoint 的频率从”每周一次”变成”每分钟一次”
模型版本管理从静态文件变成滚动更新(像数据库的 WAL)

4.3 性能工程师该做什么

📍 具体动作:

别再把”训练集群”和”推理集群”当成完全分离的两套——未来它们会混部
理解 rolling update / continuous training 工程要求(借鉴在线学习推荐系统的经验)
关注”长时间稳定运行”的可观测性(连续 90 天训练的故障率统计)

⭕ 互补:这件事不是 100% 必然——也可能”基础模型 + 频繁微调”的混合范式继续主导。但两种路径都需要更强的混部和容错。

5. Smart Compilers 与”AI 写 kernel”

5.1 编译器正在吃掉手写 kernel 的工作

PyTorch 2.x 的 torch.compile(TorchDynamo + AOTAutograd + TorchInductor)在主流模型上自动 fuse / autotune,平均 ~40% 的”白送”加速
OpenAI Triton 让 Python 代码直接编译成接近手写水平的 CUDA kernel
每代新 GPU(H100 → B200 → 未来 Rubin)发布后,Triton 通常几个月内就更新好,把新指令(TMA、WGMMA、新精度)封装出来

5.2 AI 自己写 kernel 已经是 2025 真实可用

第 10 章讲过:NVIDIA 用 DeepSeek-R1 + verifier loop,15 分钟自动生成达到专家水平的 Attention kernel
创业公司 Predibase 用 RL 训练 LLM 写 kernel,在 benchmark 上比 OpenAI 默认编译器和 DeepSeek-R1 还快约 3×

🧠 关键洞察:手写 CUDA 的产出门槛正在被快速抬高——不是说人类工程师没用了,是说”未来值得人类工程师亲自写”的 kernel 越来越少,大多数情况你应该让 AI + 编译器先跑一遍,人类只在它们卡住的地方介入。

5.3 性能工程师该做什么

📍 具体动作:

拥抱编译器:把”先 torch.compile / Triton / TVM 跑一遍” 当成默认基线,在它之上才考虑手写
学习写 verifier:你不是在写 kernel,是在写”判断这个 kernel 写得好不好”的程序——这是 AI-assisted 工作流的核心环节
关注 reasoning model 的进展:推理时间 + token 预算决定 AI 写 kernel 的效果上限

6. Autonomous Scheduling 与 AI Co-pilot

6.1 集群调度器里也要塞个”AI”

今天的 K8s / SLURM 调度器主要靠静态规则(固定 GPU 配额、bin packing、queue priority)。未来方向:

学习型调度器:观察长期负载特征,动态决定哪两个 job 可以共置(一个 compute-heavy + 一个 memory-bound 配对)、什么时候迁移
强化学习管功耗:连续学最优 voltage-frequency 策略,而不是用固定阈值
学习型 cache eviction:根据访问模式智能决定哪些 KV-Cache 留 GPU、哪些挪 NVMe

6.2 性能工程师的”AI 副驾”

未来工程师可能拿到一个 “AI Co-pilot”,它读过你集群所有过去 6 个月的 profile 数据 + 告警日志 + 配置变更记录,然后:

你说”训练慢了”,它直接答”昨天 driver 升级后,NCCL_ALGO 切到了 Tree,你的 batch 大改回 Ring”
你说”500B 模型怎么切”,它建议”你这个机柜形态用 TP=8 + PP=4 + DP=2,bucket_cap_mb 设 64”
Loss 异常,它扫日志发现”node-42 有 5 次 ECC 错误,可能 GPU 内存条要换”

📍 具体动作:

现在就开始积累自己集群的可观测性数据——未来的 AI co-pilot 需要这些数据训练
把一些重复性的诊断步骤写成 verifiable 脚本,未来直接接进 AI 工作流
习惯”提需求 + 验证”的工作模式,而不是”自己手动调”

🍎 类比:就像现在的程序员从”自己写代码”变成”和 Copilot / Claude Code 协作写代码”——性能工程师也会经历同样的工作模式迁移。

7. 稀疏计算与条件执行成为一等公民

7.1 “不必要的运算”是下一个大金矿

100T 参数模型如果每一次都激活全部参数,物理上根本不可行。出路只有一条:只算需要算的部分。

三种稀疏 / 条件路线

路线	例子	节省
静态 2:4 稀疏	NVIDIA Ampere 起,每 4 个权重里 2 个是零	算力 ~2×
动态稀疏	学术前沿(Eureka 等),按 input 跳过任意位置零	4× 起跳
MoE / 条件分支	DeepSeek-V3、Switch Transformer	总参数大,但激活只占小部分

7.2 测量方式也要换:从 TFLOPs 到 TOPS

🧠 关键洞察:稀疏工作负载下,dense TFLOPs 这个指标是误导性的——硬件实际上跳过了一大堆计算。NVIDIA 把稀疏吞吐用 TOPS(tera-operations-per-second)单独表示——只数”真正算了的”。500 dense TFLOPs 的 GPU 在稀疏下可以达到等效 1000 sparse TOPS。

⭕ 回到 Goodput:这正是 Ch1 主题的延续——衡量”真正在干活的速度”才是性能工程师的真正度量。

7.3 性能工程师该做什么

📍 具体动作:

大模型项目里主动评估 MoE / 稀疏化方案——很多时候不是不能做,是没人想到
看 benchmark 报告时区分 dense TFLOPs 和 sparse TOPS,别被”6 PFLOPs”之类的数字误导
关注新的硬件指令:Blackwell 的 Transformer Engine 已经针对 MoE 优化,Rubin / Feynman 会进一步

8. 硅光、CPO 与全球互连

8.1 铜线撞墙了

到 800 Gbit/s 以上,可插拔光模块的功耗和信号完整性都在撞物理上限。Co-Packaged Optics(CPO) 是出路:把光收发机直接封装到交换机芯片旁边,电信号路径短到几毫米。

8.2 NVIDIA 已经下注

Spectrum-X / Quantum-X Photonic Switch(2025+):每端口 1.6 Tbit/s,功耗效率比传统电交换提升 ~3.5×
Quantum-3 IB(2025-2026):集成 CPO,准备好千卡 / 万卡跨柜训练的网络骨架

8.3 影响

🌟 关键事实:互连效率每涨 3×,可行的并行策略空间就重新洗牌一次。今天我们说”张量并行不能跨柜”——5 年后,张量并行可以跨机房;今天的”AllReduce 占 5%“在那时可能变成 0.5%。

📍 性能工程师该做什么:

别把今天的并行策略当成永久真理——每代新一代互连出来,重新评估你的切分方案
关注 “NVLink-over-optical”、“NVLink Switch System” 等长期演进
长期看,跨大陆训练会从研究话题变成生产话题

9. 3D HBM 堆叠、能耗与冷却

9.1 内存即将”长在 GPU 上”

今天的 HBM 通过硅 interposer 摆在 GPU die 旁边,虽然近,但还是几毫米的金属布线。3D 堆叠目标更激进:HBM 直接堆在 GPU 上(SK Hynix 与 NVIDIA 联合方向),消除 interposer。

预期效果:

内存带宽再涨一个数量级(向几十 TB/s 单 GPU)
延迟显著降低
能耗大幅减少(电信号传几毫米 → 几微米)

9.2 HBM4 接力

短期内 HBM4 已在路上:每 stack ~1.6 TB/s 带宽,容量 48-64 GB。一颗未来 GPU 可能有 8 stack × 64 GB = 512 GB HBM,聚合带宽 10+ TB/s。

9.3 能耗成为第一公民指标

GB200 NVL72 单柜 ~120 kW。下一代 Vera Rubin / Feynman 大概率超过 200 kW/柜。性能工程师必须把”perf-per-watt”当成和”perf-per-dollar”同等重要的指标:

优化方向	同时收益
稀疏 / 低精度	算力涨 + 能耗降
动态频率管理	长期能耗降而 throughput 不掉
沉浸式液冷	单柜密度上去 + thermal throttle 不再触发
利用绿电 / 余热回收	ESG 指标 + 总成本降

9.4 性能工程师的新工作面

📍 具体动作:

你的 benchmark 报告里加一列”焦耳 per token” 或 “perf-per-watt”
在大型集群上做跨工作负载的电力调度(白天训练 / 晚上推理 / 利用绿电高峰)
学一些 thermal 工程基础,知道什么时候你的”训练突然变慢”是 cooling 问题

10. CUDA Quantum 与混合经典-量子计算

10.1 量子计算还远,但 NVIDIA 已经布局

实用的通用量子 AI 远未到来,但 NVIDIA CUDA Quantum (CUDA-Q) 已经把”GPU + QPU”的混合编程模型做出来。基本想法:未来集群里 QPU 像 GPU 一样,只是另一种加速器——某些子问题(高维采样、组合优化、特定线性代数)它能比 GPU 快得多。

10.2 短期内是”用 GPU 模拟量子电路”

NVIDIA cuQuantum SDK 支持在 GPU 上模拟数十 qubit 的量子电路——这是性能工程师今天就能上手的事:量子电路模拟的瓶颈和神经网络相似(线性代数 + 内存带宽 + 并行度),原有的优化经验可以直接迁移。

10.3 性能工程师该不该立刻跳进去

⭕ 务实判断:对绝大多数性能工程师,这是 5-10 年视野的事——保持关注,但不要现在就投入主要精力。

✅ 保持基本概念了解(qubit、quantum gates、CUDA-Q 编程模型)
✅ 如果工作中真的撞到适合量子加速的子问题(组合优化、化学模拟等),可以试用 CUDA-Q
❌ 不要现在就把它放进生产关键路径

11. 通往 100T 参数模型

11.1 把前面所有趋势串起来

100 万亿(10^14)参数模型不是单一突破能搞出来的,需要所有趋势同时到位:

维度	必须发生的事
内存	HBM4 单 GPU 256-512 GB,3D 堆叠加速
算力	FP4 / FP2 普及,稀疏 / 条件计算
互连	跨柜 NVLink、跨机房 CPO、跨大陆光
软件	Smart Compiler 自动 3D/4D 并行,AI co-pilot 调参
算法	内存高效 optimizer(Shampoo / Adafactor),激进 gradient checkpointing,rotating updates(每步只更一部分参数)
协作	跨机构联合训练(checkpoint 格式标准化),多方所有权