🔗 新型互联与远程内存 8 篇文章 · 8 个章节
模块十三:新型互联与远程内存系统
AI infra 的"第二根脊柱"—— RDMA / CXL 硬件演化、分离式内存事务系统(FORD/Motor/LOTUS/AdaptX)、分离式 KV-Cache 与 PD 分离(Mooncake/DistServe/SplitWise)、训练侧远程内存(ZeRO-Infinity/HugeCTR)与端到端 RDMA 集群实战,系统掌握"算力和内存物理位置已分开但软件还没适应"这条赛道。
开始学习章节目录
从 GPU 显存爆炸、推理 KV-cache 池化、训练 checkpoint 远端写三个 AI infra 痛点出发,梳理分离式内存的硬件路径(RDMA/CXL)与系统范式(DM 事务、KV-cache pool),建立『为什么 AI infra 需要远端内存』的直觉
拆解 RDMA 的 verbs 编程模型、NIC 微架构(WQE/CQE/Doorbell)、QP 状态机、one-sided vs two-sided、doorbell batching、RoCE/InfiniBand 选型,从硬件到软件全栈打底,覆盖读 FORD/Motor 等论文需要的全部基础
拆解 CXL 1.1/2.0/3.0 三代演化、Type 1/2/3 设备、pooling vs sharing,理解 Pond/TPP 这些云端 CXL 实践,以及 CXL 与 RDMA 的长期共存关系
拆解四篇里程碑论文的设计权衡:单版本 vs MVCC、锁集中 vs 分散、静态部署 vs 控制面反馈。建立 DM 事务系统的横向比较框架
拆解 LLM 推理领域的 KV-cache 池化、Prefill/Decode 解耦三大主流路线,理解为什么这是 disaggregated memory 范式在 AI infra 最直接的应用
拆解训练系统的三种远程内存用法:ZeRO-Infinity 三层 offload、HugeCTR 推荐系统的 PMEM hybrid、RDMA 加速 checkpoint。理解 disaggregated memory 在训练侧的工程化路径
横向对比 RDMA / CXL 上的主流远程内存系统:DM 事务、KV-cache 池、训练 offload、CXL memory pool。给一个具体场景能 3 分钟选出该用哪个
从零搭一个 RDMA 集群环境(CloudLab / 自建),装 OFED,跑 CREST + AdaptX 实测 1.91× 加速,以及 Mooncake KV-cache 池 demo。完整 troubleshooting
学习建议
前置要求
模块二 CUDA + 模块三 分布式训练 + 一定的网络/操作系统基础(NUMA、PCIe)
- 第 1 章先建立"为什么 AI infra 需要远端内存"的直觉,KV-cache 内存账是关键锚点
- 第 4 章 DM 事务系统 + 第 5 章 KV-cache 池本质是同一种 disaggregation 范式,要对照看
- 端到端实战在 CloudLab + ConnectX-6 上跑 CREST + AdaptX,踩坑清单覆盖 IOMMU/memcached/MR 等高频 5 大坑