跳到主要内容
← 返回研究笔记
项目文档

项目入口:长记忆大模型系统的低成本高可靠分离式资源管理

与中国电信联合申报的研究项目;三大模块的调研笔记入口(KV / 向量 / 多模态 + 跨层级管理 + 分离式池化 + 容错)

长记忆大模型系统的低成本高可靠分离式资源管理 — 调研笔记

项目背景:与中国电信联合申请。三大研究模块:

  1. 多类型数据异构存储 + 跨层级分层管理(本人主负责)
  2. 基于高速互联协议的分离式资源池化与存算调度
  3. 低成本容错、冗余保护与故障恢复

团队同组,本笔记三模块都覆盖。

目录


调研路线图

                 ┌──────────────────────────────┐
                 │  长记忆大模型系统的存储瓶颈   │
                 └──────────────┬───────────────┘

          ┌─────────────────────┼─────────────────────┐
          ▼                     ▼                     ▼
  ┌──────────────┐     ┌──────────────┐     ┌──────────────┐
  │ 模块一(本人) │     │  模块二      │     │  模块三      │
  │ 异构数据 +   │     │ 分离式池化 + │     │ 低成本容错 + │
  │ 跨层级管理   │ ◄─► │ 存算调度     │ ◄─► │ 冗余 + 恢复  │
  └──────┬───────┘     └──────┬───────┘     └──────┬───────┘
         │                    │                    │
         ▼                    ▼                    ▼
  KV Cache 卸载         RDMA/CXL pool          checkpoint
  向量索引分层          PD 解耦                 erasure code
  多模态对象            索引访问                故障恢复

三模块在物理上重叠(同一份 KV/索引数据,既要分层,又要分离式池化,又要容错),但研究问题各自独立


论文清单 - 第一模块(主攻)

聚焦 B1(HBM 容量) + B2(多类型数据访问模式异构) + B4(token 成本建模)。

#论文 / 系统出处一句话定位笔记
1AttentionStore / CachedAttentionATC’24KV 三级缓存(HBM-DDR-SSD)+ 会话热度感知01-AttentionStore.md
2LMCacheUChicago, production跨实例 / 跨层级 KV 复用,prefix cache 池02-LMCache.md
3InfiniGenOSDI’24KV 动态卸载 + 重要 token 选择性预测03-InfiniGen-OSDI24.md
4CacheGenSIGCOMM’24KV 张量编码压缩,加速跨网络加载04-CacheGen-SIGCOMM24.md
5PensieveOSDI’24 (Eurosys’25)多轮对话 KV 复用与跨会话调度05-Pensieve.md
6DiskANN / FreshDiskANNNeurIPS’19 / 2021十亿向量 SSD 索引,内存图 + 磁盘邻居06-DiskANN.md
7AlayaDBHKUST, 2025LLM-aware 长上下文向量库,attention 驱动检索07-AlayaDB.md
8FlexGenICML’23单卡 LLM HBM/DRAM/SSD 三级卸载先驱08-FlexGen-ICML23.md

待补(资料找全后再写笔记):

  • CacheBlend (EuroSys’25):多上下文 KV 拼接复用
  • EpiCache / RagCache(2024-25):RAG 上下文缓存
  • SPANN (NeurIPS’21, Microsoft):cluster-based ANN 内存/磁盘混合
  • Filtered DiskANN (SIGMOD’24):带过滤的 ANN
  • Lance / LanceDB:多模态列存 + 向量库

论文清单 - 第二模块

聚焦分离式资源池化(RDMA/CXL)、索引访问存算协同调度数据卸载

论文 / 系统出处关键
MooncakeMoonshot 2024KV 分离式池,GPU/CPU/SSD 三级,KVCache 中心化
DistServeOSDI’24Prefill / Decode 分卡,goodput 优化
SplitwiseISCA’24同上,微软版本,异构 GPU 配比
MemServe2024弹性 memory pool for LLM serving
TPPMeta ASPLOS’23DRAM-CXL hot/cold tiering(系统层经验)
PondMicrosoft ASPLOS’23Azure CXL memory pool(数据中心实践)
HeMemASPLOS’21DRAM-PMEM 自动 tiering(经典)
FaRM / Motor / FORDNSDI’14 / OSDI’24 / FAST’22RDMA OCC 事务系统(已在模块十三)
3FSDeepSeek 2025RDMA + NVMe AI infra 文件系统
DeepEPDeepSeek 2025All-to-All 通信库,MoE expert 路由

这一组在模块十三已有大量笔记,第二模块需要的是**“分离式 + 索引访问”**的角度——即向量索引和 KV pool 怎么在分离式架构上做。


论文清单 - 第三模块

聚焦低成本容错(EC vs replication)、冗余保护故障恢复

论文 / 系统出处关键
CheckFreqFAST’21训练 checkpoint 频率优化
GeminiSOSP’23Checkpoint 内存写 + RDMA 复制
BambooNSDI’23弹性流水线训练,冗余前向
OobleckSOSP’23异构容错训练,重训练 → 重路由
ReCycle / Varuna2022-2023弹性大规模训练
CocktailSGD / Nebula多家checkpoint 流式传输
DRAGON / Erasure-coded DRAM多篇RDMA 远端内存 EC 容错
Carbink / Hydra2022/NSDI’22远端内存高可用,EC 替代副本
Pelikan / RAMP2018-2020内存 KV 容错(传统经验)
NIXL + GPUDirect StorageNVIDIA 2025推理侧 KV 卸载到 NVMe(也算容错语境)

第三模块的特色是 “长记忆数据 + 推理关键状态” 容错——不是单纯训练 checkpoint,而是生产 inference 的 KV pool / 向量库怎么 EC 保护。这块学术界几乎空白,是项目机会点。


优先精读顺序

按 ROI(投入时间 vs 对申报书帮助)排序:

1️⃣  AttentionStore  ─┐
2️⃣  LMCache        ─┼── 第一模块 KV 三级管理直接竞品,必须吃透
3️⃣  InfiniGen     ─┘
4️⃣  AlayaDB       ─── 多模态长上下文向量库,2025 新方向,差异化
5️⃣  Mooncake      ─── 第二模块基线
6️⃣  Pensieve      ─── 多轮对话 KV 复用
7️⃣  DiskANN       ─── 向量索引磁盘化基础
8️⃣  FlexGen       ─── 单卡卸载先驱,概念清晰适合做对比

读完 1-4 之后,再补:

  • 综述:Memory in the Age of AI Agents (arXiv 2512.13564, 2025)
  • 综述:Towards Efficient Generative LLM Serving: A Survey(CMU, 2023)

与现有教程模块的关系

项目模块已有覆盖本调研要新增
模块一模块四(KV 算子)、模块五(Agent Memory 框架)跨层级整合视角 + 多模态/向量索引侧
模块二模块十三(RDMA/CXL/池化)索引访问 + 存算调度细节
模块三几乎空白生产推理状态容错 全新方向

结论:这个项目的真正学术增量大头在 模块一的”统一抽象”模块三的”推理态容错”——这两点学术界几乎没有完整答案。