新型互联与远程内存系统学习路线

如果说 GPU 算力解决的是”模型怎么跑得快”,那么 新型互联与远程内存系统解决的是”数据怎么放得下、传得动、不撕裂”。千亿大模型一张 H100 装不下、一台机器装不下,推理 KV-cache 一秒钟生几十 GB,训练 checkpoint 几十 TB——这些数据在节点之间、CPU 与 GPU 之间、内存与持久化层之间的搬运,正是 AI infra 的第二根脊柱。本路线从 RDMA / CXL 的硬件演化讲到分离式内存事务、KV-cache 池化、PD 分离的具体系统,串联 10+ 篇里程碑论文和 8+ 个主流系统,最后落到 RDMA 集群上的可跑实战。

作者将根据该路线编写系列文章,帮助大家系统掌握这条 AI infra 的”数据通路”。

🌟 全景概览:为什么 AI Infra 需要”远端内存”

过去十年硬件演化的主轴是 “算力越来越快,内存越来越分裂”——GPU 的 HBM 容量增长远跟不上模型尺寸,CPU 的 DDR 带宽跟不上 LLM 推理 KV-cache 的写入,而单机的总线又跟不上多卡集群的协同需求。三层互联应运而生:

                     算力 / 节点内
                     ──────────────
   ┌──────────────────────────────────────────────────┐
   │  GPU HBM        ←  NVLink / NVSwitch  →  GPU HBM │
   │     ↕ PCIe                                  ↕    │
   │  CPU DDR        ←─── CXL 1.1/2.0 ─────→   CPU DDR│
   └──────────────────────────────────────────────────┘
                     算力 / 跨节点
                     ──────────────
   ┌──────────────────────────────────────────────────┐
   │  Node A   ←──── RDMA / RoCE / InfiniBand ───→  Node B │
   │           one-sided READ/WRITE/CAS                    │
   └──────────────────────────────────────────────────┘
                     CXL 跨节点(2.0/3.0)
                     ──────────────
   ┌──────────────────────────────────────────────────┐
   │ Memory Pool ←──── CXL Switch ────→ Compute Node  │
   │    pooling + sharing,Type 3 设备                 │
   └──────────────────────────────────────────────────┘

🧠 核心比喻:算力是 CPU,远端内存是它的 RAM 和硬盘——但这次”硬盘”是别人家的 DDR 或 HBM。RDMA 让 Node A 不打扰 Node B 的 CPU 就能读写 Node B 的内存;CXL 把这个”远端”从网络再压回总线,延迟从 µs 级压到百 ns 级。

四类典型应用,贯穿后续章节:

类型	AI infra 场景	代表系统
远端事务存储	模型 metadata、用户偏好、推荐特征库的事务一致访问	FORD / Motor / LOTUS
KV-Cache 池化	LLM 推理跨实例共享 prefix cache,Prefill/Decode 分离	Mooncake / DistServe / SplitWise
训练 Checkpoint	TB 级模型状态远端写入 / 拉取	RDMA-based ckpt、Pollux
CXL 内存扩展	单机 DDR 不够时把”远端 DDR”挂上来	Pond(Microsoft)、TPP(Meta)

🌟 一句话主旨:远端内存系统不再是数据库专属话题——它是大模型时代 AI infra 必须吃透的第二条数据通路。

📖 章节导览

整个模块分为 8 章,从硬件原理到上层系统再到实战:

章	主题	核心问题	主要系统/论文
1	什么是分离式内存	硬件演化为何走向 disaggregation?AI infra 为什么吃这一套	—
2	RDMA 通信原理与 verbs	one-sided vs two-sided、doorbell batch、RoCE 选型	ConnectX 系列、libibverbs、NCCL
3	CXL 与硬件互联演进	CXL 1.1/2.0/3.0 三代差异、Type 1/2/3 设备、pooling vs sharing	Intel SPR、Astera Labs、Pond
4	分离式内存事务系统精读	DM 上的 OCC 怎么设计、单版本 vs MVCC、锁集中 vs 分散	FORD、Motor、LOTUS、AdaptX
5	分离式 KV-Cache 与 PD 分离	推理时 KV-cache 怎么池化共享、Prefill/Decode 分离的内存设计	Mooncake、DistServe、SplitWise
6	训练侧远程内存与参数池化	老一代 PS、推荐系统 PMEM hybrid、checkpoint 远端写	HugeCTR、ZeRO-Infinity、Pollux
7	主流系统对比与选型	同一类问题不同系统怎么选	综合横评 + 决策清单
8	端到端实战	在 RDMA 集群上跑 DM 事务系统 / KV-cache 池 demo	CloudLab + CREST / Mooncake

🍎 学习顺序建议:第 1 章建立”为什么需要”的直觉 → 第 2 章打 RDMA 基础(决定后续所有论文能否看懂)→ 第 3 章看 CXL 趋势 → 第 4-6 章按你最关心的应用挑一条线深读 → 第 7 章做横向对比 → 第 8 章下场跑代码。

⏳ 里程碑论文时间线

2014 ──── FaRM (Dragojević et al., NSDI'14)         首次系统性 RDMA OCC 事务
2016 ──── DrTM (Wei et al., SOSP'15)                RDMA + HTM 协同
2018 ──── DrTM+H (Wei et al., OSDI'18)              hybrid verbs 调度
2018 ──── LegoOS (Shan et al., OSDI'18)             分离式 OS 概念奠基
2019 ──── InfiniSwap (Gu et al., NSDI'17)           远端内存 swap
2022-02 ── FORD (Zhang et al., FAST'22)             单版本 DM 事务,cache-line 锁
2023 ──── CXL 2.0 spec (CXL Consortium)             memory pooling 标准化
2024 ──── Pond (Li et al., ASPLOS'23)               云端 CXL pool 实证
2024-05 ── Motor (Wu et al., OSDI'24)               MVCC + 一致版本表
2024-06 ── Mooncake (Qin et al., FAST'25)           KV-cache 池 + PD 分离
2024-09 ── DistServe (Zhong et al., OSDI'24)        Prefill/Decode 资源解耦
2025-01 ── LOTUS (Liu et al., 2025)                 锁也分离,100ms 反应再均衡
2025 ──── SplitWise (Patel et al., ISCA'24)         PD 分离的硬件层论证
2026 ──── AdaptX (this guide, 2026)                 控制面抽象 + 5ms 反馈环

🍎 阅读顺序建议:

打底:LegoOS(理解 disaggregation 哲学)→ FaRM(RDMA OCC 鼻祖)
DM 事务:FORD → Motor → LOTUS → AdaptX(我们的工作)
AI 推理侧:Mooncake → DistServe → SplitWise
CXL 派:CXL 2.0 spec → Pond → 任意一篇 TPP-style 论文

🛠️ 主流系统速查表

分离式事务系统

系统	年份	关键创新	适合场景
FaRM	2014	首次端到端 RDMA OCC	历史奠基
FORD	2022	cache-line 锁 + doorbell batch	单版本、读多写多
Motor	2024	MVCC + 一致版本表	长事务、snapshot 读
LOTUS	2025	lock 分离到 CN + 100ms 再均衡	高 atomic-IOPS 瓶颈
AdaptX ⭐	2026	5ms 控制面 + 多反馈环可组合	上述系统的横向加速

KV-Cache / PD 分离

系统	年份	关键创新	适合场景
Mooncake	2024	全局 KV-cache 池 + Prefix 共享	商业 LLM API 服务
DistServe	2024	Prefill/Decode 资源完全解耦	TTFT/TPOT 二次优化
SplitWise	2024	PD 分离的硬件成本论证	容量规划

CXL 内存池

系统	年份	关键创新	适合场景
Pond	2023	云端 CXL 1.1 实测 + ZNUMA	DDR 容量扩展
TPP	2023	透明 page placement	OS 层 CXL 接入
Demand Paging	—	OS 把 CXL 当冷层	hyperscaler 起步方案

训练侧远程内存

系统	年份	关键创新	适合场景
HugeCTR / NV Merlin	—	GPU + PMEM 混合参数	推荐系统 embedding 表
ZeRO-Infinity	2021	NVMe + DDR + HBM 三层 offload	训练超大模型
Pollux / RDMA ckpt	—	RDMA 加速 checkpoint	长训练 fault-tolerance

🧭 新人破局指南

学习路径(推荐 6-8 周)

第 1 周:打地基

读完第 1 章,做完自我检验
至少看 2 篇综述:LegoOS(为什么要 disaggregate)+ Memory in the Age of AI Agents 不算这个领域,可换 “Disaggregated Memory” 综述
在 CloudLab / 本地 RoCE 卡上跑通一个 “Hello world RDMA”(perftest 也行)

第 2 周:吃透 RDMA

第 2 章逐节读,理解 verbs 与 doorbell 的关系
把”为什么 NCCL AllReduce 慢”和”为什么 FORD 的 OCC 用 one-sided 不用 send/recv”两个问题串起来
实操:跑 ib_send_bw / ib_read_bw,看读写延迟差

第 3 周:CXL 视角

第 3 章理解 CXL 1.1/2.0/3.0 演化
读 Pond 论文,看云厂商怎么把 CXL 落地
思考:“CXL 2.0 pool 上能跑 RDMA 协议吗”——这是当前研究 frontier

第 4-5 周:深读应用论文

按你最关心的方向选一条线:
- 数据库方向 → 第 4 章 DM 事务系统(FORD → Motor → LOTUS → AdaptX)
- 推理方向 → 第 5 章 KV-cache(Mooncake → DistServe)
- 训练方向 → 第 6 章远程内存

第 6 周:横向对比

第 7 章对比表,练习”同一个需求,我会选哪个系统”
把每个系统在”延迟 / 容量 / 一致性”三角里的位置默写出来

第 7-8 周:下场实战

第 8 章端到端 demo:跑 CREST + AdaptX,或跑 Mooncake KV-cache 池
自己搭一个最简化的 mini-version,理解工程坑

三个高频踩坑

把 RDMA 当”快网卡”用:RDMA 真正的价值不在带宽,而在 bypass 远端 CPU。one-sided READ/WRITE 不打扰对方 CPU,这是 DM 事务能成立的前提。第 2 章会强调。
以为 CXL 会取代 RDMA:CXL 优势是延迟(百 ns 级)和 缓存一致性;RDMA 优势是 跨机柜距离(几十 m+)和 成熟度。两者长期共存,不是替代。
把 DM 事务当”网络更快的单机数据库”:DM 事务系统的核心难点不在网络,而在 OCC validation 的语义 与 MN-side atomic-IOPS 瓶颈。第 4 章会拆这一点。

核心思维:互联即权衡

优化	牺牲	换取
RDMA 一边读	RNIC atomic-IOPS 上限	远端 CPU 不占
MVCC 后端	写放大、版本回收复杂度	snapshot 读
锁分离(LOTUS)	CN-CN 协议复杂度	解决 atomic-IOPS 热点
5ms 控制环(AdaptX)	实现复杂度	自适应工作负载偏移
CXL pool	总线复杂度 + 失效域	单机 TB 级内存
KV-cache 全局池	跨实例同步开销	prefix 命中率

理解了这张表,就掌握了本模块的核心思维:没有”快”的银弹,只有 trade-off 选择。

📚 参考资料

综述与背景

The Datacenter as a Computer (Barroso et al., 3rd ed., 2018):Synthesis Lectures —— Warehouse-scale computing 的奠基书,理解 disaggregation 必读
A Resource-Disaggregated System Architecture (Han et al., 2020):综述早期 disaggregation 系统设计
CXL Consortium 官方白皮书:computeexpresslink.org —— CXL 三代演化的权威说明

经典论文(分离式内存系统)

LegoOS (Shan et al., OSDI’18):arXiv 1810.01632 —— Disaggregated OS 概念奠基
InfiniSwap (Gu et al., NSDI’17):RDMA-based 远端 swap
FaRM (Dragojević et al., NSDI’14):首篇系统性 RDMA OCC

经典论文(DM 事务)

FORD (Zhang et al., FAST’22):USENIX 链接 —— 单版本 DM 事务,cache-line 对齐锁
Motor (Wu et al., OSDI’24):USENIX 链接 —— MVCC + 一致版本表
LOTUS (Liu et al., 2025):lock 分离 + 100ms 反应再均衡

经典论文(AI 推理侧)

Mooncake (Qin et al., FAST’25):arXiv 2407.00079 —— Kimi 商用的 KV-cache 池 + PD 分离架构
DistServe (Zhong et al., OSDI’24):arXiv 2401.09670 —— Prefill/Decode 解耦的实证
SplitWise (Patel et al., ISCA’24):arXiv 2311.18677 —— PD 分离的硬件成本论证

经典论文(CXL)

Pond (Li et al., ASPLOS’23):ACM DL —— Microsoft 云端 CXL 1.1 实测
TPP (Maruf et al., ASPLOS’23):Meta 透明 page placement

工业系统与代码

NCCL:github.com/NVIDIA/nccl —— 训练侧 RDMA collective 标准
HugeCTR / NV Merlin:推荐系统 GPU+PMEM 训练范式
Mooncake transfer engine:github.com/kvcache-ai/Mooncake
CREST(本路线第 8 章实战载体):RDMA 事务实验框架

实战环境

CloudLab:cloudlab.us —— 学术界主流的 RDMA 集群
OFED:Mellanox 官方 RDMA 驱动栈
perftest:RDMA 微基准工具集

搜索