项目文档
项目入口:长记忆大模型系统的低成本高可靠分离式资源管理
与中国电信联合申报的研究项目;三大模块的调研笔记入口(KV / 向量 / 多模态 + 跨层级管理 + 分离式池化 + 容错)
长记忆大模型系统的低成本高可靠分离式资源管理 — 调研笔记
项目背景:与中国电信联合申请。三大研究模块:
- 多类型数据异构存储 + 跨层级分层管理(本人主负责)
- 基于高速互联协议的分离式资源池化与存算调度
- 低成本容错、冗余保护与故障恢复
团队同组,本笔记三模块都覆盖。
目录
调研路线图
┌──────────────────────────────┐
│ 长记忆大模型系统的存储瓶颈 │
└──────────────┬───────────────┘
│
┌─────────────────────┼─────────────────────┐
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ 模块一(本人) │ │ 模块二 │ │ 模块三 │
│ 异构数据 + │ │ 分离式池化 + │ │ 低成本容错 + │
│ 跨层级管理 │ ◄─► │ 存算调度 │ ◄─► │ 冗余 + 恢复 │
└──────┬───────┘ └──────┬───────┘ └──────┬───────┘
│ │ │
▼ ▼ ▼
KV Cache 卸载 RDMA/CXL pool checkpoint
向量索引分层 PD 解耦 erasure code
多模态对象 索引访问 故障恢复
三模块在物理上重叠(同一份 KV/索引数据,既要分层,又要分离式池化,又要容错),但研究问题各自独立。
论文清单 - 第一模块(主攻)
聚焦 B1(HBM 容量) + B2(多类型数据访问模式异构) + B4(token 成本建模)。
| # | 论文 / 系统 | 出处 | 一句话定位 | 笔记 |
|---|---|---|---|---|
| 1 | AttentionStore / CachedAttention | ATC’24 | KV 三级缓存(HBM-DDR-SSD)+ 会话热度感知 | 01-AttentionStore.md |
| 2 | LMCache | UChicago, production | 跨实例 / 跨层级 KV 复用,prefix cache 池 | 02-LMCache.md |
| 3 | InfiniGen | OSDI’24 | KV 动态卸载 + 重要 token 选择性预测 | 03-InfiniGen-OSDI24.md |
| 4 | CacheGen | SIGCOMM’24 | KV 张量编码压缩,加速跨网络加载 | 04-CacheGen-SIGCOMM24.md |
| 5 | Pensieve | OSDI’24 (Eurosys’25) | 多轮对话 KV 复用与跨会话调度 | 05-Pensieve.md |
| 6 | DiskANN / FreshDiskANN | NeurIPS’19 / 2021 | 十亿向量 SSD 索引,内存图 + 磁盘邻居 | 06-DiskANN.md |
| 7 | AlayaDB | HKUST, 2025 | LLM-aware 长上下文向量库,attention 驱动检索 | 07-AlayaDB.md |
| 8 | FlexGen | ICML’23 | 单卡 LLM HBM/DRAM/SSD 三级卸载先驱 | 08-FlexGen-ICML23.md |
待补(资料找全后再写笔记):
- CacheBlend (EuroSys’25):多上下文 KV 拼接复用
- EpiCache / RagCache(2024-25):RAG 上下文缓存
- SPANN (NeurIPS’21, Microsoft):cluster-based ANN 内存/磁盘混合
- Filtered DiskANN (SIGMOD’24):带过滤的 ANN
- Lance / LanceDB:多模态列存 + 向量库
论文清单 - 第二模块
聚焦分离式资源池化(RDMA/CXL)、索引访问、存算协同调度、数据卸载。
| 论文 / 系统 | 出处 | 关键 |
|---|---|---|
| Mooncake | Moonshot 2024 | KV 分离式池,GPU/CPU/SSD 三级,KVCache 中心化 |
| DistServe | OSDI’24 | Prefill / Decode 分卡,goodput 优化 |
| Splitwise | ISCA’24 | 同上,微软版本,异构 GPU 配比 |
| MemServe | 2024 | 弹性 memory pool for LLM serving |
| TPP | Meta ASPLOS’23 | DRAM-CXL hot/cold tiering(系统层经验) |
| Pond | Microsoft ASPLOS’23 | Azure CXL memory pool(数据中心实践) |
| HeMem | ASPLOS’21 | DRAM-PMEM 自动 tiering(经典) |
| FaRM / Motor / FORD | NSDI’14 / OSDI’24 / FAST’22 | RDMA OCC 事务系统(已在模块十三) |
| 3FS | DeepSeek 2025 | RDMA + NVMe AI infra 文件系统 |
| DeepEP | DeepSeek 2025 | All-to-All 通信库,MoE expert 路由 |
这一组在模块十三已有大量笔记,第二模块需要的是**“分离式 + 索引访问”**的角度——即向量索引和 KV pool 怎么在分离式架构上做。
论文清单 - 第三模块
聚焦低成本容错(EC vs replication)、冗余保护、故障恢复。
| 论文 / 系统 | 出处 | 关键 |
|---|---|---|
| CheckFreq | FAST’21 | 训练 checkpoint 频率优化 |
| Gemini | SOSP’23 | Checkpoint 内存写 + RDMA 复制 |
| Bamboo | NSDI’23 | 弹性流水线训练,冗余前向 |
| Oobleck | SOSP’23 | 异构容错训练,重训练 → 重路由 |
| ReCycle / Varuna | 2022-2023 | 弹性大规模训练 |
| CocktailSGD / Nebula | 多家 | checkpoint 流式传输 |
| DRAGON / Erasure-coded DRAM | 多篇 | RDMA 远端内存 EC 容错 |
| Carbink / Hydra | 2022/NSDI’22 | 远端内存高可用,EC 替代副本 |
| Pelikan / RAMP | 2018-2020 | 内存 KV 容错(传统经验) |
| NIXL + GPUDirect Storage | NVIDIA 2025 | 推理侧 KV 卸载到 NVMe(也算容错语境) |
第三模块的特色是 “长记忆数据 + 推理关键状态” 容错——不是单纯训练 checkpoint,而是生产 inference 的 KV pool / 向量库怎么 EC 保护。这块学术界几乎空白,是项目机会点。
优先精读顺序
按 ROI(投入时间 vs 对申报书帮助)排序:
1️⃣ AttentionStore ─┐
2️⃣ LMCache ─┼── 第一模块 KV 三级管理直接竞品,必须吃透
3️⃣ InfiniGen ─┘
4️⃣ AlayaDB ─── 多模态长上下文向量库,2025 新方向,差异化
5️⃣ Mooncake ─── 第二模块基线
6️⃣ Pensieve ─── 多轮对话 KV 复用
7️⃣ DiskANN ─── 向量索引磁盘化基础
8️⃣ FlexGen ─── 单卡卸载先驱,概念清晰适合做对比
读完 1-4 之后,再补:
- 综述:Memory in the Age of AI Agents (arXiv 2512.13564, 2025)
- 综述:Towards Efficient Generative LLM Serving: A Survey(CMU, 2023)
与现有教程模块的关系
| 项目模块 | 已有覆盖 | 本调研要新增 |
|---|---|---|
| 模块一 | 模块四(KV 算子)、模块五(Agent Memory 框架) | 跨层级整合视角 + 多模态/向量索引侧 |
| 模块二 | 模块十三(RDMA/CXL/池化) | 索引访问 + 存算调度细节 |
| 模块三 | 几乎空白 | 生产推理状态容错 全新方向 |
结论:这个项目的真正学术增量大头在 模块一的”统一抽象” 和 模块三的”推理态容错”——这两点学术界几乎没有完整答案。