第11章:Ultra-Scale 未来趋势
AI 与 HPC 融合、全球 AI Factory、自我改进 Agent、Smart Compilers + AI 写 kernel、autonomous scheduling、稀疏计算第一公民、硅光与 CPO、3D HBM 堆叠、能耗优先、CUDA Quantum、通往 100T 参数模型——性能工程师未来 3-5 年的雷达图
读完前 10 章,你掌握的是今天的方法论:Goodput、NVL72、NCCL、案例研究。这些会被用上很久,但有些东西正在变——而性能工程师如果不抬头看,3 年后会发现自己在用过时的工具解决已经不存在的问题。本章做一件事:把未来 3-5 年大概率会发生、且影响性能工程师工作方式的趋势列出来,每条带”性能工程师应该提前怎么准备”的具体建议。这不是占卜,是雷达图——告诉你哪些方向值得花时间跟进,哪些可以暂时不管。
📑 目录
- 1. 主题:从”砸卡”走向”协同 + 智能 + 全栈”
- 2. AI 与 HPC 的融合
- 3. AI Factories 与全球分布式计算
- 4. 自我改进 Agent 与算力需求曲线
- 5. Smart Compilers 与”AI 写 kernel”
- 6. Autonomous Scheduling 与 AI Co-pilot
- 7. 稀疏计算与条件执行成为一等公民
- 8. 硅光、CPO 与全球互连
- 9. 3D HBM 堆叠、能耗与冷却
- 10. CUDA Quantum 与混合经典-量子计算
- 11. 通往 100T 参数模型
- 12. 性能工程师未来 3 年的”专业雷达图”
- 自我检验清单
- 参考资料
1. 主题:从”砸卡”走向”协同 + 智能 + 全栈”
如果用一句话概括下一代 AI 系统性能工程的总主线,就是:
🌟 核心趋势:算力还会涨,但单纯堆算力会越来越打不开局面——下一阶段的杠杆来自三件事——协同(co-design 越来越深)、智能(让 AI 帮你做优化)、全栈(从 GPU 算子一路看到机房供电)。
这三件事会在本章每一节里反复出现。读完整章你会发现”未来 5 年的不同新技术”——硅光、CPO、3D HBM、CUDA Quantum、Smart Compiler、AI Agent ……——背后其实是同一组主题在不同维度上的展开。
2. AI 与 HPC 的融合
2.1 这俩本来就是不同的工种
过去 10 年,AI 工程师和 HPC(高性能科学计算)工程师走在两条平行轨道上:HPC 关心 FP64 精度、复杂的 MPI 集合通信、跨节点同步;AI 关心 BF16/FP8、NCCL AllReduce、batch 吞吐。两边的同事经常讨论同一台 GPU 但说着完全不同的语言。
2.2 但同一颗 GPU 已经把两边的活都干了
NVIDIA 公布的 Blackwell 实测:在某些气象模拟和数字孪生场景上相比 Hopper 提速 ~200×、能耗降低 ~300×——同一颗芯片同时是 AI 训练 / 推理的工具。这意味着:
- 学界 HPC 应用 越来越多用 AI 模型(神经网络、surrogate model)替代部分昂贵的传统数值方法
- AI 训练 / 推理 越来越多借鉴 HPC 的调度、容错、数值稳定性技术
2.3 性能工程师该做的准备
📍 具体动作:
- 不要把”HPC vs AI” 当成两条职业轨道——未来这是同一个工种
- 多了解一些 HPC 的概念:MPI / SLURM / Lustre / 数值精度分析——这些会在万卡 AI 集群上重新流行
- 反向地,如果你出身 HPC,学一下 PyTorch + AMP + NCCL
🍎 直觉比喻:就像 10 年前”前端 vs 后端”是两个职业,现在”全栈”成了主流——AI ↔ HPC 也在合流。
3. AI Factories 与全球分布式计算
3.1 NVIDIA 反复强调的”AI Factory”概念
不再把单个数据中心当成”机房”,而是当成AI 工厂——产线是训练 / 推理 job,产品是模型权重和服务请求。下一阶段:多个 AI Factory 跨大陆联合工作。
3.2 让”跨大陆训练”成为可能的关键技术
| 技术 | 解决什么问题 |
|---|---|
| NVIDIA Spectrum-X / Quantum-X 硅光 | 跨机房 1.6 Tbit/s 量级链路 |
| NVLink-over-optical(预期) | NVLink 域突破单 rack,扩到机房尺度 |
| DPU 接管网络栈(BlueField) | 跨地域同步的复杂逻辑卸载到智能网卡 |
| 异步训练算法 | 容忍跨大陆几十毫秒延迟而不显著降收敛速度 |
🌟 远期愿景:把东京、伦敦、硅谷的三个百万 GPU 集群当成一个三百万 GPU 的”全球 AI Factory”——光速延迟会限制某些紧耦合训练步骤,但异步算法 + 分层并行让大部分任务可行。
3.3 性能工程师的新视野
📍 具体动作:
- 学会跨地域思维:不再只是”机柜内 vs 机柜外”,还有”机房内 vs 机房间 vs 跨大陆”——每一层延迟差一个数量级
- 关注异步训练算法:同步 SGD 在跨大陆下崩溃,异步 / 半同步 / 局部 SGD 这类方法值得深读
- CDN / 分布式系统的经验在重新值钱——AI Factory 的网络架构和大型 CDN 越来越像
4. 自我改进 Agent 与算力需求曲线
4.1 训练 FLOPs 仍在指数上升
| 模型 | 训练 FLOPs(量级) |
|---|---|
| GPT-3(2020) | ~3 × 10^23 |
| GPT-4(2023) | ~2 × 10^25 |
| 下一代 frontier 模型(预期 2026-2028) | 10^27 - 10^28 |
每代 +2 个数量级。承载这种规模的数据中心、电力、网络,都需要重新设计。
4.2 “永久学习”的 Agent 范式
下一阶段的研究方向之一是 “agent 不再有训练 / 部署边界”——模型每天用新生成的合成数据更新自己的权重,7×24 持续在线学习。这对基础设施提出新要求:
- 训练和推理工作负载在同一集群里同时跑
- Checkpoint 的频率从”每周一次”变成”每分钟一次”
- 模型版本管理从静态文件变成滚动更新(像数据库的 WAL)
4.3 性能工程师该做什么
📍 具体动作:
- 别再把”训练集群”和”推理集群”当成完全分离的两套——未来它们会混部
- 理解 rolling update / continuous training 工程要求(借鉴在线学习推荐系统的经验)
- 关注”长时间稳定运行”的可观测性(连续 90 天训练的故障率统计)
⭕ 互补:这件事不是 100% 必然——也可能”基础模型 + 频繁微调”的混合范式继续主导。但两种路径都需要更强的混部和容错。
5. Smart Compilers 与”AI 写 kernel”
5.1 编译器正在吃掉手写 kernel 的工作
- PyTorch 2.x 的
torch.compile(TorchDynamo + AOTAutograd + TorchInductor)在主流模型上自动 fuse / autotune,平均 ~40% 的”白送”加速 - OpenAI Triton 让 Python 代码直接编译成接近手写水平的 CUDA kernel
- 每代新 GPU(H100 → B200 → 未来 Rubin)发布后,Triton 通常几个月内就更新好,把新指令(TMA、WGMMA、新精度)封装出来
5.2 AI 自己写 kernel 已经是 2025 真实可用
- 第 10 章讲过:NVIDIA 用 DeepSeek-R1 + verifier loop,15 分钟自动生成达到专家水平的 Attention kernel
- 创业公司 Predibase 用 RL 训练 LLM 写 kernel,在 benchmark 上比 OpenAI 默认编译器和 DeepSeek-R1 还快约 3×
🧠 关键洞察:手写 CUDA 的产出门槛正在被快速抬高——不是说人类工程师没用了,是说”未来值得人类工程师亲自写”的 kernel 越来越少,大多数情况你应该让 AI + 编译器先跑一遍,人类只在它们卡住的地方介入。
5.3 性能工程师该做什么
📍 具体动作:
- 拥抱编译器:把”先 torch.compile / Triton / TVM 跑一遍” 当成默认基线,在它之上才考虑手写
- 学习写 verifier:你不是在写 kernel,是在写”判断这个 kernel 写得好不好”的程序——这是 AI-assisted 工作流的核心环节
- 关注 reasoning model 的进展:推理时间 + token 预算决定 AI 写 kernel 的效果上限
6. Autonomous Scheduling 与 AI Co-pilot
6.1 集群调度器里也要塞个”AI”
今天的 K8s / SLURM 调度器主要靠静态规则(固定 GPU 配额、bin packing、queue priority)。未来方向:
- 学习型调度器:观察长期负载特征,动态决定哪两个 job 可以共置(一个 compute-heavy + 一个 memory-bound 配对)、什么时候迁移
- 强化学习管功耗:连续学最优 voltage-frequency 策略,而不是用固定阈值
- 学习型 cache eviction:根据访问模式智能决定哪些 KV-Cache 留 GPU、哪些挪 NVMe
6.2 性能工程师的”AI 副驾”
未来工程师可能拿到一个 “AI Co-pilot”,它读过你集群所有过去 6 个月的 profile 数据 + 告警日志 + 配置变更记录,然后:
- 你说”训练慢了”,它直接答”昨天 driver 升级后,NCCL_ALGO 切到了 Tree,你的 batch 大改回 Ring”
- 你说”500B 模型怎么切”,它建议”你这个机柜形态用 TP=8 + PP=4 + DP=2,bucket_cap_mb 设 64”
- Loss 异常,它扫日志发现”node-42 有 5 次 ECC 错误,可能 GPU 内存条要换”
📍 具体动作:
- 现在就开始积累自己集群的可观测性数据——未来的 AI co-pilot 需要这些数据训练
- 把一些重复性的诊断步骤写成 verifiable 脚本,未来直接接进 AI 工作流
- 习惯”提需求 + 验证”的工作模式,而不是”自己手动调”
🍎 类比:就像现在的程序员从”自己写代码”变成”和 Copilot / Claude Code 协作写代码”——性能工程师也会经历同样的工作模式迁移。
7. 稀疏计算与条件执行成为一等公民
7.1 “不必要的运算”是下一个大金矿
100T 参数模型如果每一次都激活全部参数,物理上根本不可行。出路只有一条:只算需要算的部分。
三种稀疏 / 条件路线
| 路线 | 例子 | 节省 |
|---|---|---|
| 静态 2:4 稀疏 | NVIDIA Ampere 起,每 4 个权重里 2 个是零 | 算力 ~2× |
| 动态稀疏 | 学术前沿(Eureka 等),按 input 跳过任意位置零 | 4× 起跳 |
| MoE / 条件分支 | DeepSeek-V3、Switch Transformer | 总参数大,但激活只占小部分 |
7.2 测量方式也要换:从 TFLOPs 到 TOPS
🧠 关键洞察:稀疏工作负载下,dense TFLOPs 这个指标是误导性的——硬件实际上跳过了一大堆计算。NVIDIA 把稀疏吞吐用 TOPS(tera-operations-per-second)单独表示——只数”真正算了的”。500 dense TFLOPs 的 GPU 在稀疏下可以达到等效 1000 sparse TOPS。
⭕ 回到 Goodput:这正是 Ch1 主题的延续——衡量”真正在干活的速度”才是性能工程师的真正度量。
7.3 性能工程师该做什么
📍 具体动作:
- 大模型项目里主动评估 MoE / 稀疏化方案——很多时候不是不能做,是没人想到
- 看 benchmark 报告时区分 dense TFLOPs 和 sparse TOPS,别被”6 PFLOPs”之类的数字误导
- 关注新的硬件指令:Blackwell 的 Transformer Engine 已经针对 MoE 优化,Rubin / Feynman 会进一步
8. 硅光、CPO 与全球互连
8.1 铜线撞墙了
到 800 Gbit/s 以上,可插拔光模块的功耗和信号完整性都在撞物理上限。Co-Packaged Optics(CPO) 是出路:把光收发机直接封装到交换机芯片旁边,电信号路径短到几毫米。
8.2 NVIDIA 已经下注
- Spectrum-X / Quantum-X Photonic Switch(2025+):每端口 1.6 Tbit/s,功耗效率比传统电交换提升 ~3.5×
- Quantum-3 IB(2025-2026):集成 CPO,准备好千卡 / 万卡跨柜训练的网络骨架
8.3 影响
🌟 关键事实:互连效率每涨 3×,可行的并行策略空间就重新洗牌一次。今天我们说”张量并行不能跨柜”——5 年后,张量并行可以跨机房;今天的”AllReduce 占 5%“在那时可能变成 0.5%。
📍 性能工程师该做什么:
- 别把今天的并行策略当成永久真理——每代新一代互连出来,重新评估你的切分方案
- 关注 “NVLink-over-optical”、“NVLink Switch System” 等长期演进
- 长期看,跨大陆训练会从研究话题变成生产话题
9. 3D HBM 堆叠、能耗与冷却
9.1 内存即将”长在 GPU 上”
今天的 HBM 通过硅 interposer 摆在 GPU die 旁边,虽然近,但还是几毫米的金属布线。3D 堆叠目标更激进:HBM 直接堆在 GPU 上(SK Hynix 与 NVIDIA 联合方向),消除 interposer。
预期效果:
- 内存带宽再涨一个数量级(向几十 TB/s 单 GPU)
- 延迟显著降低
- 能耗大幅减少(电信号传几毫米 → 几微米)
9.2 HBM4 接力
短期内 HBM4 已在路上:每 stack ~1.6 TB/s 带宽,容量 48-64 GB。一颗未来 GPU 可能有 8 stack × 64 GB = 512 GB HBM,聚合带宽 10+ TB/s。
9.3 能耗成为第一公民指标
GB200 NVL72 单柜 ~120 kW。下一代 Vera Rubin / Feynman 大概率超过 200 kW/柜。性能工程师必须把”perf-per-watt”当成和”perf-per-dollar”同等重要的指标:
| 优化方向 | 同时收益 |
|---|---|
| 稀疏 / 低精度 | 算力涨 + 能耗降 |
| 动态频率管理 | 长期能耗降而 throughput 不掉 |
| 沉浸式液冷 | 单柜密度上去 + thermal throttle 不再触发 |
| 利用绿电 / 余热回收 | ESG 指标 + 总成本降 |
9.4 性能工程师的新工作面
📍 具体动作:
- 你的 benchmark 报告里加一列”焦耳 per token” 或 “perf-per-watt”
- 在大型集群上做跨工作负载的电力调度(白天训练 / 晚上推理 / 利用绿电高峰)
- 学一些 thermal 工程基础,知道什么时候你的”训练突然变慢”是 cooling 问题
10. CUDA Quantum 与混合经典-量子计算
10.1 量子计算还远,但 NVIDIA 已经布局
实用的通用量子 AI 远未到来,但 NVIDIA CUDA Quantum (CUDA-Q) 已经把”GPU + QPU”的混合编程模型做出来。基本想法:未来集群里 QPU 像 GPU 一样,只是另一种加速器——某些子问题(高维采样、组合优化、特定线性代数)它能比 GPU 快得多。
10.2 短期内是”用 GPU 模拟量子电路”
NVIDIA cuQuantum SDK 支持在 GPU 上模拟数十 qubit 的量子电路——这是性能工程师今天就能上手的事:量子电路模拟的瓶颈和神经网络相似(线性代数 + 内存带宽 + 并行度),原有的优化经验可以直接迁移。
10.3 性能工程师该不该立刻跳进去
⭕ 务实判断:对绝大多数性能工程师,这是 5-10 年视野的事——保持关注,但不要现在就投入主要精力。
- ✅ 保持基本概念了解(qubit、quantum gates、CUDA-Q 编程模型)
- ✅ 如果工作中真的撞到适合量子加速的子问题(组合优化、化学模拟等),可以试用 CUDA-Q
- ❌ 不要现在就把它放进生产关键路径
11. 通往 100T 参数模型
11.1 把前面所有趋势串起来
100 万亿(10^14)参数模型不是单一突破能搞出来的,需要所有趋势同时到位:
| 维度 | 必须发生的事 |
|---|---|
| 内存 | HBM4 单 GPU 256-512 GB,3D 堆叠加速 |
| 算力 | FP4 / FP2 普及,稀疏 / 条件计算 |
| 互连 | 跨柜 NVLink、跨机房 CPO、跨大陆光 |
| 软件 | Smart Compiler 自动 3D/4D 并行,AI co-pilot 调参 |
| 算法 | 内存高效 optimizer(Shampoo / Adafactor),激进 gradient checkpointing,rotating updates(每步只更一部分参数) |
| 协作 | 跨机构联合训练(checkpoint 格式标准化),多方所有权 |
11.2 不同路径的可能性
- 稠密 100T:可能性低,代价过大
- 稀疏 100T MoE:更可行——每 token 激活其中 ~50B-200B
- 混合架构:不同 layer 用不同精度 / 稀疏度
🌟 核心判断:先到 100T 的几乎肯定是 MoE 或更激进的条件计算架构——稠密 100T 在物理 / 经济上都不划算。
12. 性能工程师未来 3 年的”专业雷达图”
把本章趋势整合成一份优先级清单,告诉你时间该花在哪里。
12.1 必须立刻投入(Tier 1)
- 拥抱编译器与 AI-assisted 优化:torch.compile、Triton 是默认基线
- Goodput / perf-per-watt 思维:从”raw FLOPs”切到”有效计算 / 焦耳”
- MoE 与稀疏化经验:大模型项目几乎绕不开
- 跨层 profile:Nsight + DCGM + PyTorch profiler 三件套娴熟
12.2 持续关注(Tier 2)
- NVLink-over-optical / CPO:每代新硬件评估并行策略变化
- 可观测性数据沉淀:为未来的 AI co-pilot 准备数据
- HPC 经验扩展:MPI、SLURM、数值精度
- 跨地域 / 跨机房训练:异步算法、容错
12.3 保持知道(Tier 3,不需立即投入)
- CUDA Quantum:概念了解,5-10 年视角
- 3D GPU 堆叠:硬件成熟时再深入
- FP2 / 1-bit 训练:看 Blackwell-Ultra / Rubin 进展再说
12.4 一句话送别
🌟 核心建议:“砸更多卡”的时代正在结束,“会和 AI / 编译器 / 全栈协作”的时代正在开始。把自己的工作模式从”手动调每一个 knob” 升级到”设定目标 + 让自动化跑 + 验证结果”,你不会被淘汰——你会变得比以前强 10 倍。
✅ 自我检验清单
- 三大主线:能默写”协同 / 智能 / 全栈” 三条主线,并各举一个本章的具体例子
- AI ↔ HPC 融合:能解释为什么 Blackwell 同时在气象模拟和 LLM 训练上都强
- AI Factory:能用一句话解释”全球分布式训练”和今天单数据中心训练的核心差异
- Agent-N 路径:能识别”自我改进 Agent” 对基础设施带来的至少 3 个变化
- Smart Compiler 趋势:能说出 torch.compile / Triton / Predibase RL 写 kernel 的关系
- AI Co-pilot 工作流:能描述”提目标 + 验证”的工作模式,与”自己手动调”的差异
- 稀疏第一公民:能区分静态 2:4 稀疏、动态稀疏、MoE 三条路线
- TFLOPs vs TOPS:能解释为什么稀疏吞吐用 TOPS 表示
- CPO 价值:能说出 1.6 Tbit/s 端口 + 3.5× 节能背后的物理动机
- 3D HBM:能解释为什么”消除 interposer” 能带来一个数量级的内存带宽提升
- 100T 路径必经环节:能列出至少 3 个非堆卡的关键技术
- 个人雷达图:能说出自己今天最该投入的 Tier 1 优先项
📚 参考资料
蓝本书籍
- AI Systems Performance Engineering (Chris Fregly, O’Reilly 2025):learning.oreilly.com —— 本章趋势框架来自此书 Ch11
趋势报告
- AI 2027 / AI Futures Project:ai-2027.com —— Agent-1/2/3/4 自我改进 AI 的趋势预测
- NVIDIA Blackwell HPC + AI 性能数据 —— NVIDIA Developer Blog 多篇
关键技术官方资料
- NVIDIA Spectrum-X Photonics:nvidia.com/en-us/networking/spectrum-x/
- NVIDIA Quantum-X Photonics:nvidia.com/en-us/networking/quantum-x/
- NVIDIA CUDA Quantum (CUDA-Q):developer.nvidia.com/cuda-q
- OpenAI Triton:github.com/openai/triton
- PyTorch torch.compile:pytorch.org/docs/stable/torch.compiler.html
行业讨论
- Predibase: AI-Generated CUDA Kernels —— RL 训 LLM 写 kernel 的实证
- SK Hynix + NVIDIA HBM4 / 3D 堆叠合作公告 —— 多份业界报道
- Hugging Face Ultra-Scale Playbook —— 100K+ GPU 训练实战
下一章预告(第 12 章:175+ 项性能优化检查清单):看完未来雷达图,最后一章把本系列所有要点压成一份可勾选清单,从 OS 到 kernel 到训练到推理——让你拿到任何一个新集群、任何一个新 job,都能按图索骥。