AI 系统性能工程方法论
第6章:CUDA 性能优化深入
warp / occupancy / shared memory / TMA / WGMMA、kernel 级优化案例与 cheat sheet——性能工程师视角的 CUDA 调优(待补)
CUDA warp occupancy shared memory TMA WGMMA 占位
⚠️ 本章正文待补。原书 AI Systems Performance Engineering(Chris Fregly, O’Reilly 2025)的 Early Release 版本中,Ch6 标记为 unavailable。等正式版释出或获取等价资料后再补完整正文。
章节定位
延续第 5 章的工具链能力,本章聚焦单 kernel 性能调优——拿到一个 hot kernel 后怎么逐步榨干硬件。
计划覆盖的内容
- Memory coalescing、bank conflict、vector loads
- Occupancy vs ILP 权衡
- Shared memory tiling 与 swizzling
- Hopper TMA(Tensor Memory Accelerator)与异步 copy
- Hopper / Blackwell WGMMA(warp-group MMA)
- Kernel fusion 范式:epilogue fusion、producer-consumer
- Tensor Core 数据布局要求
- 案例:朴素 GEMM → cuBLAS-级性能的 7 步演进
在补完之前请参考
- 模块二第2章 CUDA 性能优化基础
- 模块二第3章 经典算子-Reduce
- 模块二第4章 经典算子-GEMM
- 模块二第6章 Attention 算子
- 模块零第10章 案例研究 —— DeepSeek-R1 自动写 kernel 案例
📚 参考资料
- AI Systems Performance Engineering (Chris Fregly, O’Reilly 2025):learning.oreilly.com —— 待原书 Ch6 释出
- CUDA C++ Programming Guide:docs.nvidia.com/cuda/cuda-c-programming-guide/
- CUTLASS GitHub:github.com/NVIDIA/cutlass