跳到主要内容
📚 AIInfra前置基础 20 篇文章 · 6 个章节

模块一:前置知识

涵盖 GPU 架构、编程语言基础、数学基础、Transformer 架构、PyTorch 框架和集合通信等核心前置知识,为后续深入 AI Infra 打好坚实基础。

开始学习

章节目录

Python、C/C++、Linux 三件套——AI Infra 日常工作的语言底盘,从够用到熟练的关键检查点
线性代数、概率论、微积分——AI Infra 不是数学家,但维度推导、Softmax、链式法则这些直觉必须够用
Tensor、autograd、Module、训练流程、调试与 profiling——PyTorch 是 AI Infra 后续所有工作的载体
理解 GPU 架构设计哲学、存储层次、主流 GPU 规格对比和互联拓扑,为 CUDA 编程建立硬件认知
掌握分布式训练的通信原语(AllReduce、AllGather 等)、Ring/Tree 通信算法和 NCCL 的使用与调优

学习建议

  • 建议按章节顺序学习,每章内容相对独立但有递进关系
  • 如果已有相关背景知识,可以跳过对应章节直接进入 CUDA 编程模块
  • Transformer 架构和 PyTorch 框架是后续所有模块的基础,建议重点掌握