🔗 新型互联与远程内存 8 篇文章 · 8 个章节

模块十三：新型互联与远程内存系统

AI infra 的"第二根脊柱"—— RDMA / CXL 硬件演化、分离式内存事务系统(FORD/Motor/LOTUS/AdaptX)、分离式 KV-Cache 与 PD 分离(Mooncake/DistServe/SplitWise)、训练侧远程内存(ZeRO-Infinity/HugeCTR)与端到端 RDMA 集群实战，系统掌握"算力和内存物理位置已分开但软件还没适应"这条赛道。

开始学习

章节目录

1 第1章:什么是分离式内存 —— AI Infra 视角下的硬件演化与系统范式

从 GPU 显存爆炸、推理 KV-cache 池化、训练 checkpoint 远端写三个 AI infra 痛点出发,梳理分离式内存的硬件路径(RDMA/CXL)与系统范式(DM 事务、KV-cache pool),建立『为什么 AI infra 需要远端内存』的直觉

2 第2章:RDMA 通信原理与 verbs —— 从 NIC 微架构到 doorbell batch

拆解 RDMA 的 verbs 编程模型、NIC 微架构(WQE/CQE/Doorbell)、QP 状态机、one-sided vs two-sided、doorbell batching、RoCE/InfiniBand 选型,从硬件到软件全栈打底,覆盖读 FORD/Motor 等论文需要的全部基础

3 第3章:CXL 与硬件互联演进 —— 从 1.1 到 3.0 的三阶段跃迁

拆解 CXL 1.1/2.0/3.0 三代演化、Type 1/2/3 设备、pooling vs sharing,理解 Pond/TPP 这些云端 CXL 实践,以及 CXL 与 RDMA 的长期共存关系

4 第4章:分离式内存事务系统精读 —— FORD / Motor / LOTUS / AdaptX

拆解四篇里程碑论文的设计权衡:单版本 vs MVCC、锁集中 vs 分散、静态部署 vs 控制面反馈。建立 DM 事务系统的横向比较框架

5 第5章:分离式 KV-Cache 与 PD 分离 —— Mooncake / DistServe / SplitWise

拆解 LLM 推理领域的 KV-cache 池化、Prefill/Decode 解耦三大主流路线,理解为什么这是 disaggregated memory 范式在 AI infra 最直接的应用

6 第6章:训练侧远程内存与参数池化 —— Offload、Checkpoint、PMEM Hybrid

拆解训练系统的三种远程内存用法:ZeRO-Infinity 三层 offload、HugeCTR 推荐系统的 PMEM hybrid、RDMA 加速 checkpoint。理解 disaggregated memory 在训练侧的工程化路径

7 第7章:主流系统对比与选型 —— 把前六章放在一张大表上

横向对比 RDMA / CXL 上的主流远程内存系统:DM 事务、KV-cache 池、训练 offload、CXL memory pool。给一个具体场景能 3 分钟选出该用哪个

8 第8章:端到端实战 —— 在 RDMA 集群上跑 DM 事务 / KV-Cache 池

从零搭一个 RDMA 集群环境(CloudLab / 自建),装 OFED,跑 CREST + AdaptX 实测 1.91× 加速,以及 Mooncake KV-cache 池 demo。完整 troubleshooting

学习建议

前置要求

模块二 CUDA + 模块三分布式训练 + 一定的网络/操作系统基础(NUMA、PCIe)

第 1 章先建立"为什么 AI infra 需要远端内存"的直觉,KV-cache 内存账是关键锚点
第 4 章 DM 事务系统 + 第 5 章 KV-cache 池本质是同一种 disaggregation 范式,要对照看
端到端实战在 CloudLab + ConnectX-6 上跑 CREST + AdaptX,踩坑清单覆盖 IOMMU/memcached/MR 等高频 5 大坑

模块十三：新型互联与远程内存系统

章节目录

学习建议

前置要求

搜索