阅读清单
第二模块调研清单 — 分离式资源池化 + 索引访问 + 存算调度
项目第二模块(师兄方向)的论文阅读优先级与差异化重点——和模块十三高度重叠,本清单只列差异化精读项
第二模块调研清单 — 分离式资源池化 + 索引访问 + 存算调度
项目第二模块研究内容:研究基于高速互联协议的分离式资源池化技术,构建面向分离式架构的高效索引访问、存算协同调度与数据卸载机制,提升系统吞吐和资源利用效率。
与现有 模块十三 新型互联与远程内存 高度重叠——本清单只列差异化重点,精读笔记可直接复用模块十三现成内容。
阅读优先级
🔥 = 必读 | ⭐ = 重要 | ◯ = 选读
A. KV Cache 分离式池化系统
| 优先级 | 系统 | 出处 | 关键贡献 | 项目对接点 |
|---|---|---|---|---|
| 🔥 | Mooncake | Moonshot 2024 + 学术版 | KV 池化 + Prefill/Decode 解耦 + GPU/CPU/SSD 三级 | 第二模块最强基线,需要做”分离式 + 索引访问”侧的差异化 |
| 🔥 | DistServe | OSDI 2024 | PD 分离 + goodput 调度 + 异构 GPU 配比 | 调度器思路直接借鉴 |
| ⭐ | Splitwise | ISCA 2024 | PD 分离 Microsoft 版,异构 GPU 配比研究透 | 工程对比 |
| ⭐ | MemServe | 2024 | 弹性 LLM memory pool,可伸缩 | 池化弹性策略 |
| ⭐ | CachedAttention/AttentionStore | ATC 2024 | 见模块一笔记 01 | 跨层级 KV 调度 |
| ◯ | DéjàVu | 2024 | KV pool + 故障恢复 | 跨第二/第三模块 |
B. 高速互联与通信库
| 优先级 | 系统 | 出处 | 关键 | 项目对接点 |
|---|---|---|---|---|
| 🔥 | NIXL | NVIDIA 2025 | 推理专用 P2P 传输库,GPUDirect + IBGDA | 第二模块”分离式 KV pool”的下层传输 |
| 🔥 | NCCL + SHARP | NVIDIA | 训练侧 collective + 在网计算 | 已在模块四/十三 |
| ⭐ | DeepEP | DeepSeek 2025 开源 | MoE All-to-All 通信,跨节点 expert 路由 | 多模态多专家路由参考 |
| ⭐ | 3FS(Fire-Flyer FS) | DeepSeek 2025 开源 | RDMA + NVMe AI infra 文件系统 | 长记忆数据持久层参考 |
| ⭐ | UCX | OpenUCX | 通用 P2P 传输抽象层(NIXL 底层) | 多后端抽象设计 |
| ◯ | NVSHMEM | NVIDIA | GPU 全局共享内存 | 训练侧参考 |
C. CXL 与 DRAM-PMEM 分层(系统层经验)
| 优先级 | 系统 | 出处 | 关键 |
|---|---|---|---|
| ⭐ | TPP | Meta ASPLOS 2023 | 透明页放置,DRAM-CXL hot/cold |
| ⭐ | Pond | Microsoft ASPLOS 2023 | Azure CXL memory pool 实践 |
| ⭐ | HeMem | ASPLOS 2021 | DRAM-PMEM 自动 tiering 经典 |
| ◯ | Memtis / TMTS | 2023+ | 多级内存 tiering |
| ◯ | AutoNUMA / Multi-Generational LRU | Linux | 系统级 tiering 默认实现 |
D. 分离式事务存储(模块十三精读基础)
| 优先级 | 系统 | 出处 | 关键 |
|---|---|---|---|
| ⭐ | FaRM | NSDI 2014 | RDMA OCC 鼻祖 |
| ⭐ | FORD | FAST 2022 | 单版本 + cache-line 锁 |
| ⭐ | Motor | OSDI 2024 | MVCC + 一致版本表 |
| ⭐ | LOTUS | 近期 | 分离式 OCC 改进 |
| ◯ | AdaptX / AdaptCC | 2024 | 自适应并发控制 |
E. 存算协同调度(项目特色,文献相对零散)
这一类是项目第二模块最容易有学术增量的地方——现有工作大多关注单类型数据(KV)或单一资源(GPU),很少做”多类型数据 + 多资源 + 在线调度”的统一框架。
| 优先级 | 论文 / 系统 | 出处 | 关键 |
|---|---|---|---|
| 🔥 | Mooncake KVCache-centric scheduling | Moonshot | 调度器把 KV 状态作为一等公民 |
| 🔥 | DistServe goodput optimizer | OSDI 2024 | 显式优化 SLO 达成率而非裸吞吐 |
| ⭐ | Sarathi-Serve | OSDI 2024 | Chunked prefill + decode 混批 |
| ⭐ | Llumnix | OSDI 2024 | 跨实例迁移 + 公平调度 |
| ◯ | Andes / Loki | 2024 | LLM 服务调度优化 |
F. 综述类(背景论据)
- A Survey on Vector Database Management Systems(2024)——索引访问背景
- Towards Efficient Generative LLM Serving: A Survey(CMU 2023)——已在模块四
- LLM Serving Systems Survey(2024)——综合
- Disaggregated Memory: A Survey(2023+)——已在模块十三
第二模块拟攻关键问题(供申报书参考)
📍 科学问题候选:
- 如何在分离式架构上,为多类型数据(KV + 索引 + 多模态)设计统一的 P2P 访问与调度抽象,使 SLO 约束下的吞吐 / 资源利用率达到最优?
📍 关键技术增量(相对模块十三 / Mooncake 等已有工作):
- 多类型 P2P 抽象:NIXL 现在主要做 KV,我们扩到向量索引片段、多模态 blob
- 索引访问的 RDMA 原语:向量库 graph traversal 在 RDMA 上的批量化优化(类似 RDMA OCC 给数据库做的事)
- 存算协同的在线决策:把 Mooncake 的中心化调度升级为”模型驱动 + 反馈控制”
- 跨模块协同:与第一模块(异构存储)、第三模块(容错)在调度层共享接口
与现有模块十三的协作
模块十三已有 8 章,本项目第二模块的研究增量可以新增 3 章追加进模块十三(而非另起炉灶):
- 模块十三 第9章 (拟):LLM-aware 分离式 KV pool 系统对比(Mooncake / DistServe / Splitwise / MemServe)
- 模块十三 第10章 (拟):索引访问的 P2P 原语与批量化(向量库在 RDMA 上的设计)
- 模块十三 第11章 (拟):存算协同调度——从规则到模型驱动
与第一/第三模块的协作:第一模块产出”放置目标”(数据放哪一级),第二模块产出”传输 + 调度通道”,第三模块产出”容错 + 一致性保证”——三者在调度器层共享同一份”长记忆数据 metadata”。