长记忆大模型系统 学习路线
面向长记忆大模型系统的分层资源管理:从四类数据画像、跨层级访问规律、统一表示与映射机理,到分层放置、自适应迁移与性能—成本协同优化
如果说 Agent Memory(模块五)解决的是”记什么、怎么取”,新型互联与远程内存(模块十三)解决的是”数据怎么传”——那么 长记忆大模型系统 要解决的是夹在两者之间的硬骨头:多类型长记忆数据(KV Cache、向量索引、多模态语义记忆、中间推理状态)如何在显存、内存、SSD 三级异构存储上协同放置,既保得住性能,又降得了成本。这正是大模型从”短轮次问答”走向”持续学习 + 复杂推理 + 智能体任务执行”的关键基础设施缺口。本路线把这个问题域拆透:数据画像、访问规律、统一表示、跨层映射、分层放置、自适应迁移、性能—成本协同——12 章串到底,既做教程也做研究路线图。
作者将根据该路线编写系列文章,帮助大家系统掌握长记忆大模型系统的分层资源管理。
📑 目录
🌟 全景概览:为什么”长记忆”是关键基础
大模型早期的应用形态是”一问一答”:输入一段 prompt,模型生成一段输出,会话之间相互独立。这一代系统对存储几乎没有要求——HBM 装下当前请求的 KV 就够。
但下一阶段的能力——持续学习、复杂推理、智能体任务执行——把场景变成了:
- 一个 Agent 跑几小时甚至几天,产生几十-几百 GB 的中间推理状态
- 一个长会话用户跨越数月反复来访,期望模型记得 7 天前的偏好
- RAG / 多模态检索把数 TB 的外部知识库纳入”工作记忆”
- KV Cache 跨实例、跨节点共享,变成集群级一等公民
🌟 关键转变:存储一侧从”装下当前请求”变成”承载多类型长记忆数据的全栈数据通路”——这个转变是 LLM 真正落地复杂应用的基础设施前提。
四类长记忆数据有完全不同的”性格”:
| 类型 | 典型代表 | 访问模式 | 生命周期 |
|---|---|---|---|
| KV Cache | 推理实时缓存 | 顺序写、按 layer 随机读、强时序 | 秒-分钟(单会话) |
| 向量索引 | RAG 库、Agent 语义记忆 | 图遍历 / 聚类查找,稀疏访问 | 月-年 |
| 多模态语义记忆 | 图像/音频 embedding + 原始 blob | 大块顺序读 + embedding 索引 | 月-年 |
| 中间推理状态 | Agent scratchpad、tool call trace | 零碎写、偶尔读、强时序 | 分钟-小时 |
🧠 核心矛盾:四类数据在访问频率、生命周期、精度敏感性、资源需求上各不相同——但现有系统(vLLM 单卡、Mooncake KV 池、Milvus 向量库、对象存储)各自为政,没有任何一个抽象能统管这四类。结果是:工程师只能凭直觉决定”放显存 / 放内存 / 放 SSD”,同一份长记忆数据的成本在不同放置策略下相差几倍。
⭐ 本路线的核心命题:研究多类型长记忆数据的访问规律、统一表示与跨层资源映射机理,形成分层放置、自适应迁移和性能—成本协同优化方法,为低成本长记忆大模型系统提供基础支撑。
📖 章节导览
整个模块计划 12 章,从问题域到方法论再到实战:
| 章 | 主题 | 核心问题 |
|---|---|---|
| 1 | 长记忆为什么是大模型的关键基础 | 能力跃迁、四类数据、四个异构特征、割裂管理代价 |
| 2 | 多类型数据的访问规律建模 | KV / 向量 / 多模态 / 推理状态各自的访问模式 |
| 3 | 三级存储基础:HBM / DRAM / SSD 的延迟带宽与放置物理 | 硬件层 cheat sheet |
| 4 | KV Cache 跨层级管理论文精读 | AttentionStore / LMCache / InfiniGen / CacheGen / Pensieve |
| 5 | 向量索引的层次化设计 | DiskANN / SPANN / FreshDiskANN / AlayaDB |
| 6 | 多模态语义记忆与 Embedding 协同存储 | Lance / 多模态 RAG / blob + embedding 共置 |
| 7 | 中间推理状态:被忽视的”第四类” | Agent scratchpad / tool trace 的存储设计 |
| 8 | 统一表示与跨层资源映射机理 | 把四类数据抽象到同一个 metadata + placement 接口 |
| 9 | 分层放置策略 | 静态 LP / 在线启发式 / 模型驱动 / 强化学习 |
| 10 | 自适应迁移与冷热演化 | 迁移触发、批量化、放大效应、保序 |
| 11 | 性能—成本协同优化建模 | 单 token 边际成本、SLO 约束、预算分配 |
| 12 | 端到端实战与基准设计 | 长记忆数据混合负载基准 + 完整 reference 实现 |
🌗 核心数据画像速查
┌──────────────────────────────────────────────────────────────┐
│ 访问频率 生命周期 精度敏感性 资源需求 │
├──────────────────────────────────────────────────────────────┤
│ KV Cache │ 高频(每步)│ 短(秒-分钟) │ 中 │ HBM 带宽 │
│ 向量索引 │ 中频 │ 长(月-年) │ 低 │ 容量 + 随机IO │
│ 多模态记忆 │ 中-低频 │ 长(月-年) │ 高 │ 容量 + 顺序IO │
│ 中间推理状态 │ 突发 │ 短(分-时) │ 中-高 │ 写延迟 │
└──────────────────────────────────────────────────────────────┘
🍎 直觉比喻:这就像一个家——KV Cache 是手边的水杯(每秒在用),向量索引是书架上的工具书(偶尔翻),多模态记忆是地下室的相册(很久才翻一次但不能丢),中间推理状态是便利贴(写完用完就丢但当下要快)。把这四种东西都堆在客厅(HBM)显然浪费,都塞地下室(SSD)又取不及——分层放置是基本生存策略。
⏳ 关键论文时间线
2019 ─── DiskANN(NeurIPS) 单机十亿向量 SSD 索引
2021 ─── FreshDiskANN 流式更新的 DiskANN
2022 ─── FORD(FAST) 分离式内存事务系统(模块十三)
2023-01 ─ FlexGen(ICML) 单卡 LLM HBM/DRAM/SSD 三级卸载先驱
2023-09 ─ vLLM PagedAttention(SOSP) 单卡 KV 分页虚拟内存
2024-01 ─ DistServe(OSDI) Prefill/Decode 解耦
2024-06 ─ InfiniGen(OSDI) KV 重要 token 预测式动态加载
2024-07 ─ AttentionStore(ATC) KV 三级缓存 + 多轮会话复用
2024-08 ─ CacheGen(SIGCOMM) KV 张量编码压缩 + 流式
2024-Q4 ─ Mooncake(技术报告) KV 中心化分离式池化(规模化)
2024-Q4 ─ Pensieve(OSDI / 后续) 多轮会话亲和路由
2025-Q1 ─ AlayaDB(HKUST) LLM-aware 长上下文向量库
2025-Q1 ─ DeepSeek 3FS / DeepEP AI infra 文件系统 + MoE 通信开源
2025+ ── 本项目方向 **多类型 + 跨层级 + 低成本 + 高可靠 统一框架**
🧠 观察:2024 年是 KV 跨层级管理的爆发年(InfiniGen / AttentionStore / CacheGen / Mooncake 集中出现),2025 年起向量索引开始 LLM-native 化(AlayaDB)——但把四类数据统起来管的工作几乎空白。本项目正切入这个时间窗口。
🧭 与其它模块的关系
| 模块 | 在哪一层 | 与本模块的关系 |
|---|---|---|
| 模块四 推理优化 | 单实例 KV 算子 / 量化 | 提供 KV 数据的算子级语义输入 |
| 模块五 Agent Memory | 上层语义(Episodic/Semantic/Procedural) | 提供”什么数据要记住”的应用层定义 |
| 模块零 性能工程方法论 | Goodput / 跨层调优 | 提供优化方法论(profile → 决策 → 验证) |
| 模块十三 新型互联与远程内存 | RDMA / CXL / 分离式池化 | 提供数据通路(怎么传),本模块决定放置(放哪) |
| 模块三 分布式训练 | 训练侧并行 / 容错 | 提供训练 checkpoint 经验,可迁移到推理状态保护 |
⭐ 核心定位:本模块站在四个模块的交叉口——把上层应用语义(模块五)、底层数据通路(模块十三)、性能方法论(模块零)、推理算子(模块四)拼成一套面向长记忆系统的分层资源管理框架。
🚀 新人破局指南
应用层工程师(LLM Agent / RAG 开发者) ➜ 第 1、2、6、7 章看完就够,知道哪些数据可以”忘记 / 卸载 / 压缩”
推理引擎开发者(vLLM / SGLang 二次开发) ➜ 第 4 章精读,补 8、9、10 章理解上层
系统研究者(投 SOSP / OSDI 题目) ➜ 第 8、9、11 章是研究腹地;第 7、10 章是相对空白
容量规划 / 成本工程师 ➜ 第 11 章 + 模块零的成本视角,直接出预算模型
面试 AI Infra 高级岗位 ➜ 第 1、2、4、5 章覆盖了 90% 的相关题目
📚 参考资料
核心调研笔记(本路线的研究底料)
- docs/research/项目-长记忆分离式存储/ —— 8 篇核心论文精读笔记 + 三模块调研清单
关键综述
- Memory in the Age of AI Agents(arXiv 2512.13564, 2025) —— 长记忆系统视角综述
- Towards Efficient Generative LLM Serving: A Survey(CMU, 2023):arXiv 2312.15234 —— 推理服务侧综述
- A Survey on Vector Database Management Systems(2024) —— 向量库系统综述
关键论文 / 系统(精读笔记见 docs/research)
- vLLM PagedAttention(SOSP’23):arXiv 2309.06180
- FlexGen(ICML’23):arXiv 2303.06865
- DistServe(OSDI’24):arXiv 2401.09670
- InfiniGen(OSDI’24):arXiv 2406.19707
- AttentionStore(ATC’24):arXiv 2403.19708
- CacheGen(SIGCOMM’24):arXiv 2310.07240
- Mooncake 技术报告(2024):github.com/kvcache-ai/Mooncake
- DiskANN(NeurIPS’19):Microsoft Research
- AlayaDB(HKUST, 2025) —— 论文/项目页
行业资源
- LMCache 开源项目:github.com/LMCache/LMCache
- DeepSeek 3FS / DeepEP:github.com/deepseek-ai
- Milvus / Faiss / Qdrant —— 主流向量库实现
- NVIDIA NIXL —— 推理 P2P 传输库
本系列其它模块
- 模块四 推理优化、模块五 Agent Memory、模块十三 新型互联与远程内存、模块零 性能工程方法论