跳到主要内容
🎯 AI 系统性能工程方法论 12 篇文章 · 12 个章节

AI 系统性能工程方法论

AI 系统性能工程方法论相关技术文档

开始学习

章节目录

性能工程师的角色定义、为什么 Goodput 比 FLOPs/利用率更重要、Mechanical Sympathy 哲学、100 万亿参数模型挑战与本系列其它模块的导航关系
Grace-Blackwell 超级芯片、HBM3e 与 8 TB/s 带宽、NVLink 5 + NVSwitch 130 TB/s 全互联、SHARP 在网计算、120 kW 液冷整机柜——一张性能工程师视角的 GB200 NVL72 数据流地图
AI 软件栈全景、NUMA 与 CPU pinning、内存 pinning 与 Huge Pages、Persistence Mode / MPS / MIG、容器与 Kubernetes GPU 编排——把宝贵的 GPU 算力从 OS 层的隐形浪费中抢回来
Magnum IO 全景、计算与通信 overlap 四种武器、RDMA + GPUDirect、NCCL 算法与环境变量手册、SHARP 在网计算、NIXL 推理时代新玩家、KV-Cache 卸载——把 goodput 第二大杀手按死
CUDA 编程模型、Nsight Systems / Nsight Compute 实战、cuda-gdb 与 compute-sanitizer——从性能工程师视角的 CUDA 入门与排查(待补)
warp / occupancy / shared memory / TMA / WGMMA、kernel 级优化案例与 cheat sheet——性能工程师视角的 CUDA 调优(待补)
torch.compile / TorchInductor / CUDA Graph / TF32-AMP-FP8 决策树、PyTorch profiler 实战——性能工程师视角的框架级调优(待补)
3D 并行 + ZeRO + MoE + Sequence Parallelism + 容错——性能工程师视角的万卡训练(待补)
vLLM / TensorRT-LLM / Dynamo 选型决策、speculative decoding、PD 解耦、KV-Cache 优化——性能工程师视角的推理服务(待补)
OpenAI GPT-4.5 协同设计、DeepSeek 受限 GPU 训出 671B 模型、MobileEye FP8 + torch.compile 47% 加速、NVIDIA Dynamo + vLLM 推理 2× 吞吐、AlphaTensor AI 发现 GEMM 算法、DeepSeek-R1 自动生成 CUDA kernel —— 七个真实工程故事拆给你看
AI 与 HPC 融合、全球 AI Factory、自我改进 Agent、Smart Compilers + AI 写 kernel、autonomous scheduling、稀疏计算第一公民、硅光与 CPO、3D HBM 堆叠、能耗优先、CUDA Quantum、通往 100T 参数模型——性能工程师未来 3-5 年的雷达图
把全书方法论压成一份可勾选 cheat sheet——12 大类 175+ 条:从心态到 OS 到 CUDA 到训练到推理到电与冷,拿到任何新集群都能按图索骥