AI 系统性能工程方法论
第5章:CUDA 编程、Profiling 与 Debugging
CUDA 编程模型、Nsight Systems / Nsight Compute 实战、cuda-gdb 与 compute-sanitizer——从性能工程师视角的 CUDA 入门与排查(待补)
CUDA Nsight Systems Nsight Compute cuda-gdb compute-sanitizer 占位
⚠️ 本章正文待补。原书 AI Systems Performance Engineering(Chris Fregly, O’Reilly 2025)的 Early Release 版本中,Ch5 标记为 unavailable。等正式版释出或获取等价资料后再补完整正文。
章节定位
本章是模块零方法论的实战补丁:把 Ch1 讲过的 “先 profile 再优化” 落地到具体工具链。
计划覆盖的内容
- CUDA 编程模型快速过(Grid / Block / Thread / Warp)
- Nsight Systems 时间线分析:看到 CPU/GPU/通信/I/O 全貌
- Nsight Compute kernel 级深挖:warp efficiency / occupancy / memory throughput
- cuda-gdb 调试 GPU kernel
- compute-sanitizer 检查 race / out-of-bounds / sync 错误
- NVTX 标记把训练 step 切片化
在补完之前请参考
- 模块二第1章 CUDA 编程入门 —— 编程模型基础
- 模块二第8章 性能分析工具链 —— Nsight 系列工具实战
- 第4章 分布式通信与 I/O 优化 —— 通信层 profile 部分
📚 参考资料
- AI Systems Performance Engineering (Chris Fregly, O’Reilly 2025):learning.oreilly.com —— 待原书 Ch5 释出
- NVIDIA Nsight Systems:docs.nvidia.com/nsight-systems/
- NVIDIA Nsight Compute:docs.nvidia.com/nsight-compute/