跳到主要内容
AI 系统性能工程方法论

第5章:CUDA 编程、Profiling 与 Debugging

CUDA 编程模型、Nsight Systems / Nsight Compute 实战、cuda-gdb 与 compute-sanitizer——从性能工程师视角的 CUDA 入门与排查(待补)

CUDA Nsight Systems Nsight Compute cuda-gdb compute-sanitizer 占位

⚠️ 本章正文待补。原书 AI Systems Performance Engineering(Chris Fregly, O’Reilly 2025)的 Early Release 版本中,Ch5 标记为 unavailable。等正式版释出或获取等价资料后再补完整正文。

章节定位

本章是模块零方法论的实战补丁:把 Ch1 讲过的 “先 profile 再优化” 落地到具体工具链。

计划覆盖的内容

  • CUDA 编程模型快速过(Grid / Block / Thread / Warp)
  • Nsight Systems 时间线分析:看到 CPU/GPU/通信/I/O 全貌
  • Nsight Compute kernel 级深挖:warp efficiency / occupancy / memory throughput
  • cuda-gdb 调试 GPU kernel
  • compute-sanitizer 检查 race / out-of-bounds / sync 错误
  • NVTX 标记把训练 step 切片化

在补完之前请参考


📚 参考资料