🎯 AI 系统性能工程方法论 12 篇文章 · 12 个章节

AI 系统性能工程方法论

AI 系统性能工程方法论相关技术文档

章节目录

性能工程师的角色定义、为什么 Goodput 比 FLOPs/利用率更重要、Mechanical Sympathy 哲学、100 万亿参数模型挑战与本系列其它模块的导航关系

2 第2章：NVIDIA AI 系统硬件全景 —— GB200 NVL72 解剖

Grace-Blackwell 超级芯片、HBM3e 与 8 TB/s 带宽、NVLink 5 + NVSwitch 130 TB/s 全互联、SHARP 在网计算、120 kW 液冷整机柜——一张性能工程师视角的 GB200 NVL72 数据流地图

3 第3章：OS、Docker、Kubernetes for GPU 环境调优

AI 软件栈全景、NUMA 与 CPU pinning、内存 pinning 与 Huge Pages、Persistence Mode / MPS / MIG、容器与 Kubernetes GPU 编排——把宝贵的 GPU 算力从 OS 层的隐形浪费中抢回来

4 第4章：分布式通信与 I/O 优化

Magnum IO 全景、计算与通信 overlap 四种武器、RDMA + GPUDirect、NCCL 算法与环境变量手册、SHARP 在网计算、NIXL 推理时代新玩家、KV-Cache 卸载——把 goodput 第二大杀手按死

5 第5章：CUDA 编程、Profiling 与 Debugging

CUDA 编程模型、Nsight Systems / Nsight Compute 实战、cuda-gdb 与 compute-sanitizer——从性能工程师视角的 CUDA 入门与排查（待补）

6 第6章：CUDA 性能优化深入

warp / occupancy / shared memory / TMA / WGMMA、kernel 级优化案例与 cheat sheet——性能工程师视角的 CUDA 调优（待补）

7 第7章：PyTorch Profiling 与 Tuning

torch.compile / TorchInductor / CUDA Graph / TF32-AMP-FP8 决策树、PyTorch profiler 实战——性能工程师视角的框架级调优（待补）

8 第8章：超大规模分布式训练

3D 并行 + ZeRO + MoE + Sequence Parallelism + 容错——性能工程师视角的万卡训练（待补）

9 第9章：多节点推理优化

vLLM / TensorRT-LLM / Dynamo 选型决策、speculative decoding、PD 解耦、KV-Cache 优化——性能工程师视角的推理服务（待补）

10 第10章：AI 系统优化案例研究

OpenAI GPT-4.5 协同设计、DeepSeek 受限 GPU 训出 671B 模型、MobileEye FP8 + torch.compile 47% 加速、NVIDIA Dynamo + vLLM 推理 2× 吞吐、AlphaTensor AI 发现 GEMM 算法、DeepSeek-R1 自动生成 CUDA kernel —— 七个真实工程故事拆给你看

11 第11章：Ultra-Scale 未来趋势

AI 与 HPC 融合、全球 AI Factory、自我改进 Agent、Smart Compilers + AI 写 kernel、autonomous scheduling、稀疏计算第一公民、硅光与 CPO、3D HBM 堆叠、能耗优先、CUDA Quantum、通往 100T 参数模型——性能工程师未来 3-5 年的雷达图

12 第12章：AI 系统性能优化 175+ 项检查清单

把全书方法论压成一份可勾选 cheat sheet——12 大类 175+ 条:从心态到 OS 到 CUDA 到训练到推理到电与冷,拿到任何新集群都能按图索骥

AI 系统性能工程方法论

章节目录

搜索