跳到主要内容
AIInfra学习路线

新型互联与远程内存系统 学习路线

系统梳理 RDMA / CXL / 分离式内存的完整学习路线:从硬件演化到上层系统(DM 事务 / KV-cache 池 / PD 分离),串联里程碑论文与可跑实战

Disaggregated Memory RDMA CXL KV-Cache FORD Motor LOTUS Mooncake AI Infra

如果说 GPU 算力解决的是”模型怎么跑得快”,那么 新型互联与远程内存系统解决的是”数据怎么放得下、传得动、不撕裂”。千亿大模型一张 H100 装不下、一台机器装不下,推理 KV-cache 一秒钟生几十 GB,训练 checkpoint 几十 TB——这些数据在节点之间、CPU 与 GPU 之间、内存与持久化层之间的搬运,正是 AI infra 的第二根脊柱。本路线从 RDMA / CXL 的硬件演化讲到分离式内存事务、KV-cache 池化、PD 分离的具体系统,串联 10+ 篇里程碑论文和 8+ 个主流系统,最后落到 RDMA 集群上的可跑实战。

作者将根据该路线编写系列文章,帮助大家系统掌握这条 AI infra 的”数据通路”。

📑 目录


🌟 全景概览:为什么 AI Infra 需要”远端内存”

过去十年硬件演化的主轴是 “算力越来越快,内存越来越分裂”——GPU 的 HBM 容量增长远跟不上模型尺寸,CPU 的 DDR 带宽跟不上 LLM 推理 KV-cache 的写入,而单机的总线又跟不上多卡集群的协同需求。三层互联应运而生:

                     算力 / 节点内
                     ──────────────
   ┌──────────────────────────────────────────────────┐
   │  GPU HBM        ←  NVLink / NVSwitch  →  GPU HBM │
   │     ↕ PCIe                                  ↕    │
   │  CPU DDR        ←─── CXL 1.1/2.0 ─────→   CPU DDR│
   └──────────────────────────────────────────────────┘
                     算力 / 跨节点
                     ──────────────
   ┌──────────────────────────────────────────────────┐
   │  Node A   ←──── RDMA / RoCE / InfiniBand ───→  Node B │
   │           one-sided READ/WRITE/CAS                    │
   └──────────────────────────────────────────────────┘
                     CXL 跨节点(2.0/3.0)
                     ──────────────
   ┌──────────────────────────────────────────────────┐
   │ Memory Pool ←──── CXL Switch ────→ Compute Node  │
   │    pooling + sharing,Type 3 设备                 │
   └──────────────────────────────────────────────────┘

🧠 核心比喻:算力是 CPU,远端内存是它的 RAM 和硬盘——但这次”硬盘”是别人家的 DDR 或 HBM。RDMA 让 Node A 不打扰 Node B 的 CPU 就能读写 Node B 的内存;CXL 把这个”远端”从网络再压回总线,延迟从 µs 级压到百 ns 级。

四类典型应用,贯穿后续章节:

类型AI infra 场景代表系统
远端事务存储模型 metadata、用户偏好、推荐特征库的事务一致访问FORD / Motor / LOTUS
KV-Cache 池化LLM 推理跨实例共享 prefix cache,Prefill/Decode 分离Mooncake / DistServe / SplitWise
训练 CheckpointTB 级模型状态远端写入 / 拉取RDMA-based ckpt、Pollux
CXL 内存扩展单机 DDR 不够时把”远端 DDR”挂上来Pond(Microsoft)、TPP(Meta)

🌟 一句话主旨:远端内存系统不再是数据库专属话题——它是大模型时代 AI infra 必须吃透的第二条数据通路。


📖 章节导览

整个模块分为 8 章,从硬件原理到上层系统再到实战:

主题核心问题主要系统/论文
1什么是分离式内存硬件演化为何走向 disaggregation?AI infra 为什么吃这一套
2RDMA 通信原理与 verbsone-sided vs two-sided、doorbell batch、RoCE 选型ConnectX 系列、libibverbs、NCCL
3CXL 与硬件互联演进CXL 1.1/2.0/3.0 三代差异、Type 1/2/3 设备、pooling vs sharingIntel SPR、Astera Labs、Pond
4分离式内存事务系统精读DM 上的 OCC 怎么设计、单版本 vs MVCC、锁集中 vs 分散FORD、Motor、LOTUS、AdaptX
5分离式 KV-Cache 与 PD 分离推理时 KV-cache 怎么池化共享、Prefill/Decode 分离的内存设计Mooncake、DistServe、SplitWise
6训练侧远程内存与参数池化老一代 PS、推荐系统 PMEM hybrid、checkpoint 远端写HugeCTR、ZeRO-Infinity、Pollux
7主流系统对比与选型同一类问题不同系统怎么选综合横评 + 决策清单
8端到端实战在 RDMA 集群上跑 DM 事务系统 / KV-cache 池 demoCloudLab + CREST / Mooncake

🍎 学习顺序建议:第 1 章建立”为什么需要”的直觉 → 第 2 章打 RDMA 基础(决定后续所有论文能否看懂)→ 第 3 章看 CXL 趋势 → 第 4-6 章按你最关心的应用挑一条线深读 → 第 7 章做横向对比 → 第 8 章下场跑代码。


⏳ 里程碑论文时间线

2014 ──── FaRM (Dragojević et al., NSDI'14)         首次系统性 RDMA OCC 事务
2016 ──── DrTM (Wei et al., SOSP'15)                RDMA + HTM 协同
2018 ──── DrTM+H (Wei et al., OSDI'18)              hybrid verbs 调度
2018 ──── LegoOS (Shan et al., OSDI'18)             分离式 OS 概念奠基
2019 ──── InfiniSwap (Gu et al., NSDI'17)           远端内存 swap
2022-02 ── FORD (Zhang et al., FAST'22)             单版本 DM 事务,cache-line 锁
2023 ──── CXL 2.0 spec (CXL Consortium)             memory pooling 标准化
2024 ──── Pond (Li et al., ASPLOS'23)               云端 CXL pool 实证
2024-05 ── Motor (Wu et al., OSDI'24)               MVCC + 一致版本表
2024-06 ── Mooncake (Qin et al., FAST'25)           KV-cache 池 + PD 分离
2024-09 ── DistServe (Zhong et al., OSDI'24)        Prefill/Decode 资源解耦
2025-01 ── LOTUS (Liu et al., 2025)                 锁也分离,100ms 反应再均衡
2025 ──── SplitWise (Patel et al., ISCA'24)         PD 分离的硬件层论证
2026 ──── AdaptX (this guide, 2026)                 控制面抽象 + 5ms 反馈环

🍎 阅读顺序建议:

  1. 打底:LegoOS(理解 disaggregation 哲学)→ FaRM(RDMA OCC 鼻祖)
  2. DM 事务:FORD → Motor → LOTUS → AdaptX(我们的工作)
  3. AI 推理侧:Mooncake → DistServe → SplitWise
  4. CXL 派:CXL 2.0 spec → Pond → 任意一篇 TPP-style 论文

🛠️ 主流系统速查表

分离式事务系统

系统年份关键创新适合场景
FaRM2014首次端到端 RDMA OCC历史奠基
FORD2022cache-line 锁 + doorbell batch单版本、读多写多
Motor2024MVCC + 一致版本表长事务、snapshot 读
LOTUS2025lock 分离到 CN + 100ms 再均衡高 atomic-IOPS 瓶颈
AdaptX20265ms 控制面 + 多反馈环可组合上述系统的横向加速

KV-Cache / PD 分离

系统年份关键创新适合场景
Mooncake2024全局 KV-cache 池 + Prefix 共享商业 LLM API 服务
DistServe2024Prefill/Decode 资源完全解耦TTFT/TPOT 二次优化
SplitWise2024PD 分离的硬件成本论证容量规划

CXL 内存池

系统年份关键创新适合场景
Pond2023云端 CXL 1.1 实测 + ZNUMADDR 容量扩展
TPP2023透明 page placementOS 层 CXL 接入
Demand PagingOS 把 CXL 当冷层hyperscaler 起步方案

训练侧远程内存

系统年份关键创新适合场景
HugeCTR / NV MerlinGPU + PMEM 混合参数推荐系统 embedding 表
ZeRO-Infinity2021NVMe + DDR + HBM 三层 offload训练超大模型
Pollux / RDMA ckptRDMA 加速 checkpoint长训练 fault-tolerance

🧭 新人破局指南

学习路径(推荐 6-8 周)

第 1 周:打地基

  • 读完第 1 章,做完自我检验
  • 至少看 2 篇综述:LegoOS(为什么要 disaggregate)+ Memory in the Age of AI Agents 不算这个领域,可换 “Disaggregated Memory” 综述
  • 在 CloudLab / 本地 RoCE 卡上跑通一个 “Hello world RDMA”(perftest 也行)

第 2 周:吃透 RDMA

  • 第 2 章逐节读,理解 verbs 与 doorbell 的关系
  • 把”为什么 NCCL AllReduce 慢”和”为什么 FORD 的 OCC 用 one-sided 不用 send/recv”两个问题串起来
  • 实操:跑 ib_send_bw / ib_read_bw,看读写延迟差

第 3 周:CXL 视角

  • 第 3 章理解 CXL 1.1/2.0/3.0 演化
  • 读 Pond 论文,看云厂商怎么把 CXL 落地
  • 思考:“CXL 2.0 pool 上能跑 RDMA 协议吗”——这是当前研究 frontier

第 4-5 周:深读应用论文

  • 按你最关心的方向选一条线:
    • 数据库方向 → 第 4 章 DM 事务系统(FORD → Motor → LOTUS → AdaptX)
    • 推理方向 → 第 5 章 KV-cache(Mooncake → DistServe)
    • 训练方向 → 第 6 章远程内存

第 6 周:横向对比

  • 第 7 章对比表,练习”同一个需求,我会选哪个系统”
  • 把每个系统在”延迟 / 容量 / 一致性”三角里的位置默写出来

第 7-8 周:下场实战

  • 第 8 章端到端 demo:跑 CREST + AdaptX,或跑 Mooncake KV-cache 池
  • 自己搭一个最简化的 mini-version,理解工程坑

三个高频踩坑

  1. 把 RDMA 当”快网卡”用:RDMA 真正的价值不在带宽,而在 bypass 远端 CPU。one-sided READ/WRITE 不打扰对方 CPU,这是 DM 事务能成立的前提。第 2 章会强调。
  2. 以为 CXL 会取代 RDMA:CXL 优势是 延迟(百 ns 级)和 缓存一致性;RDMA 优势是 跨机柜距离(几十 m+)和 成熟度。两者长期共存,不是替代。
  3. 把 DM 事务当”网络更快的单机数据库”:DM 事务系统的核心难点不在网络,而在 OCC validation 的语义MN-side atomic-IOPS 瓶颈。第 4 章会拆这一点。

核心思维:互联即权衡

优化牺牲换取
RDMA 一边读RNIC atomic-IOPS 上限远端 CPU 不占
MVCC 后端写放大、版本回收复杂度snapshot 读
锁分离(LOTUS)CN-CN 协议复杂度解决 atomic-IOPS 热点
5ms 控制环(AdaptX)实现复杂度自适应工作负载偏移
CXL pool总线复杂度 + 失效域单机 TB 级内存
KV-cache 全局池跨实例同步开销prefix 命中率

理解了这张表,就掌握了本模块的核心思维:没有”快”的银弹,只有 trade-off 选择


📚 参考资料

综述与背景

  • The Datacenter as a Computer (Barroso et al., 3rd ed., 2018):Synthesis Lectures —— Warehouse-scale computing 的奠基书,理解 disaggregation 必读
  • A Resource-Disaggregated System Architecture (Han et al., 2020):综述早期 disaggregation 系统设计
  • CXL Consortium 官方白皮书:computeexpresslink.org —— CXL 三代演化的权威说明

经典论文(分离式内存系统)

  • LegoOS (Shan et al., OSDI’18):arXiv 1810.01632 —— Disaggregated OS 概念奠基
  • InfiniSwap (Gu et al., NSDI’17):RDMA-based 远端 swap
  • FaRM (Dragojević et al., NSDI’14):首篇系统性 RDMA OCC

经典论文(DM 事务)

  • FORD (Zhang et al., FAST’22):USENIX 链接 —— 单版本 DM 事务,cache-line 对齐锁
  • Motor (Wu et al., OSDI’24):USENIX 链接 —— MVCC + 一致版本表
  • LOTUS (Liu et al., 2025):lock 分离 + 100ms 反应再均衡

经典论文(AI 推理侧)

  • Mooncake (Qin et al., FAST’25):arXiv 2407.00079 —— Kimi 商用的 KV-cache 池 + PD 分离架构
  • DistServe (Zhong et al., OSDI’24):arXiv 2401.09670 —— Prefill/Decode 解耦的实证
  • SplitWise (Patel et al., ISCA’24):arXiv 2311.18677 —— PD 分离的硬件成本论证

经典论文(CXL)

  • Pond (Li et al., ASPLOS’23):ACM DL —— Microsoft 云端 CXL 1.1 实测
  • TPP (Maruf et al., ASPLOS’23):Meta 透明 page placement

工业系统与代码

实战环境

  • CloudLab:cloudlab.us —— 学术界主流的 RDMA 集群
  • OFED:Mellanox 官方 RDMA 驱动栈
  • perftest:RDMA 微基准工具集