长记忆大模型系统的低成本高可靠分离式资源管理 — 调研笔记

项目背景:与中国电信联合申请。三大研究模块:

多类型数据异构存储 + 跨层级分层管理(本人主负责)

基于高速互联协议的分离式资源池化与存算调度

低成本容错、冗余保护与故障恢复

团队同组,本笔记三模块都覆盖。

调研路线图

                 ┌──────────────────────────────┐
                 │  长记忆大模型系统的存储瓶颈   │
                 └──────────────┬───────────────┘
                                │
          ┌─────────────────────┼─────────────────────┐
          ▼                     ▼                     ▼
  ┌──────────────┐     ┌──────────────┐     ┌──────────────┐
  │ 模块一(本人) │     │  模块二      │     │  模块三      │
  │ 异构数据 +   │     │ 分离式池化 + │     │ 低成本容错 + │
  │ 跨层级管理   │ ◄─► │ 存算调度     │ ◄─► │ 冗余 + 恢复  │
  └──────┬───────┘     └──────┬───────┘     └──────┬───────┘
         │                    │                    │
         ▼                    ▼                    ▼
  KV Cache 卸载         RDMA/CXL pool          checkpoint
  向量索引分层          PD 解耦                 erasure code
  多模态对象            索引访问                故障恢复

三模块在物理上重叠(同一份 KV/索引数据,既要分层,又要分离式池化,又要容错),但研究问题各自独立。

论文清单 - 第一模块(主攻)

聚焦 B1(HBM 容量) + B2(多类型数据访问模式异构) + B4(token 成本建模)。

#	论文 / 系统	出处	一句话定位	笔记
1	AttentionStore / CachedAttention	ATC’24	KV 三级缓存(HBM-DDR-SSD)+ 会话热度感知	01-AttentionStore.md
2	LMCache	UChicago, production	跨实例 / 跨层级 KV 复用,prefix cache 池	02-LMCache.md
3	InfiniGen	OSDI’24	KV 动态卸载 + 重要 token 选择性预测	03-InfiniGen-OSDI24.md
4	CacheGen	SIGCOMM’24	KV 张量编码压缩,加速跨网络加载	04-CacheGen-SIGCOMM24.md
5	Pensieve	OSDI’24 (Eurosys’25)	多轮对话 KV 复用与跨会话调度	05-Pensieve.md
6	DiskANN / FreshDiskANN	NeurIPS’19 / 2021	十亿向量 SSD 索引,内存图 + 磁盘邻居	06-DiskANN.md
7	AlayaDB	HKUST, 2025	LLM-aware 长上下文向量库,attention 驱动检索	07-AlayaDB.md
8	FlexGen	ICML’23	单卡 LLM HBM/DRAM/SSD 三级卸载先驱	08-FlexGen-ICML23.md

待补(资料找全后再写笔记):

CacheBlend (EuroSys’25):多上下文 KV 拼接复用
EpiCache / RagCache(2024-25):RAG 上下文缓存
SPANN (NeurIPS’21, Microsoft):cluster-based ANN 内存/磁盘混合
Filtered DiskANN (SIGMOD’24):带过滤的 ANN
Lance / LanceDB:多模态列存 + 向量库

论文清单 - 第二模块

聚焦分离式资源池化(RDMA/CXL)、索引访问、存算协同调度、数据卸载。

论文 / 系统	出处	关键
Mooncake	Moonshot 2024	KV 分离式池,GPU/CPU/SSD 三级,KVCache 中心化
DistServe	OSDI’24	Prefill / Decode 分卡,goodput 优化
Splitwise	ISCA’24	同上,微软版本,异构 GPU 配比
MemServe	2024	弹性 memory pool for LLM serving
TPP	Meta ASPLOS’23	DRAM-CXL hot/cold tiering(系统层经验)
Pond	Microsoft ASPLOS’23	Azure CXL memory pool(数据中心实践)
HeMem	ASPLOS’21	DRAM-PMEM 自动 tiering(经典)
FaRM / Motor / FORD	NSDI’14 / OSDI’24 / FAST’22	RDMA OCC 事务系统(已在模块十三)
3FS	DeepSeek 2025	RDMA + NVMe AI infra 文件系统
DeepEP	DeepSeek 2025	All-to-All 通信库,MoE expert 路由

这一组在模块十三已有大量笔记,第二模块需要的是**“分离式 + 索引访问”**的角度——即向量索引和 KV pool 怎么在分离式架构上做。

论文清单 - 第三模块

聚焦低成本容错(EC vs replication)、冗余保护、故障恢复。

论文 / 系统	出处	关键
CheckFreq	FAST’21	训练 checkpoint 频率优化
Gemini	SOSP’23	Checkpoint 内存写 + RDMA 复制
Bamboo	NSDI’23	弹性流水线训练,冗余前向
Oobleck	SOSP’23	异构容错训练,重训练 → 重路由
ReCycle / Varuna	2022-2023	弹性大规模训练
CocktailSGD / Nebula	多家	checkpoint 流式传输
DRAGON / Erasure-coded DRAM	多篇	RDMA 远端内存 EC 容错
Carbink / Hydra	2022/NSDI’22	远端内存高可用,EC 替代副本
Pelikan / RAMP	2018-2020	内存 KV 容错(传统经验)
NIXL + GPUDirect Storage	NVIDIA 2025	推理侧 KV 卸载到 NVMe(也算容错语境)

第三模块的特色是 “长记忆数据 + 推理关键状态” 容错——不是单纯训练 checkpoint,而是生产 inference 的 KV pool / 向量库怎么 EC 保护。这块学术界几乎空白,是项目机会点。

优先精读顺序

按 ROI(投入时间 vs 对申报书帮助)排序:

1️⃣  AttentionStore  ─┐
2️⃣  LMCache        ─┼── 第一模块 KV 三级管理直接竞品,必须吃透
3️⃣  InfiniGen     ─┘
4️⃣  AlayaDB       ─── 多模态长上下文向量库,2025 新方向,差异化
5️⃣  Mooncake      ─── 第二模块基线
6️⃣  Pensieve      ─── 多轮对话 KV 复用
7️⃣  DiskANN       ─── 向量索引磁盘化基础
8️⃣  FlexGen       ─── 单卡卸载先驱,概念清晰适合做对比

读完 1-4 之后,再补:

综述:Memory in the Age of AI Agents (arXiv 2512.13564, 2025)
综述:Towards Efficient Generative LLM Serving: A Survey(CMU, 2023)

与现有教程模块的关系

项目模块	已有覆盖	本调研要新增
模块一	模块四(KV 算子)、模块五(Agent Memory 框架)	跨层级整合视角 + 多模态/向量索引侧
模块二	模块十三(RDMA/CXL/池化)	索引访问 + 存算调度细节
模块三	几乎空白	生产推理状态容错全新方向

结论:这个项目的真正学术增量大头在 模块一的”统一抽象” 和 模块三的”推理态容错”——这两点学术界几乎没有完整答案。

项目入口：长记忆大模型系统的低成本高可靠分离式资源管理