长记忆大模型系统学习路线

如果说 Agent Memory(模块五)解决的是”记什么、怎么取”,新型互联与远程内存(模块十三)解决的是”数据怎么传”——那么 长记忆大模型系统 要解决的是夹在两者之间的硬骨头:多类型长记忆数据(KV Cache、向量索引、多模态语义记忆、中间推理状态)如何在显存、内存、SSD 三级异构存储上协同放置,既保得住性能,又降得了成本。这正是大模型从”短轮次问答”走向”持续学习 + 复杂推理 + 智能体任务执行”的关键基础设施缺口。本路线把这个问题域拆透:数据画像、访问规律、统一表示、跨层映射、分层放置、自适应迁移、性能—成本协同——12 章串到底,既做教程也做研究路线图。

作者将根据该路线编写系列文章,帮助大家系统掌握长记忆大模型系统的分层资源管理。

🌟 全景概览:为什么”长记忆”是关键基础

大模型早期的应用形态是”一问一答”:输入一段 prompt,模型生成一段输出,会话之间相互独立。这一代系统对存储几乎没有要求——HBM 装下当前请求的 KV 就够。

但下一阶段的能力——持续学习、复杂推理、智能体任务执行——把场景变成了:

一个 Agent 跑几小时甚至几天,产生几十-几百 GB 的中间推理状态
一个长会话用户跨越数月反复来访,期望模型记得 7 天前的偏好
RAG / 多模态检索把数 TB 的外部知识库纳入”工作记忆”
KV Cache 跨实例、跨节点共享,变成集群级一等公民

🌟 关键转变:存储一侧从”装下当前请求”变成”承载多类型长记忆数据的全栈数据通路”——这个转变是 LLM 真正落地复杂应用的基础设施前提。

四类长记忆数据有完全不同的”性格”:

类型	典型代表	访问模式	生命周期
KV Cache	推理实时缓存	顺序写、按 layer 随机读、强时序	秒-分钟(单会话)
向量索引	RAG 库、Agent 语义记忆	图遍历 / 聚类查找,稀疏访问	月-年
多模态语义记忆	图像/音频 embedding + 原始 blob	大块顺序读 + embedding 索引	月-年
中间推理状态	Agent scratchpad、tool call trace	零碎写、偶尔读、强时序	分钟-小时

🧠 核心矛盾:四类数据在访问频率、生命周期、精度敏感性、资源需求上各不相同——但现有系统(vLLM 单卡、Mooncake KV 池、Milvus 向量库、对象存储)各自为政,没有任何一个抽象能统管这四类。结果是:工程师只能凭直觉决定”放显存 / 放内存 / 放 SSD”,同一份长记忆数据的成本在不同放置策略下相差几倍。

⭐ 本路线的核心命题:研究多类型长记忆数据的访问规律、统一表示与跨层资源映射机理,形成分层放置、自适应迁移和性能—成本协同优化方法,为低成本长记忆大模型系统提供基础支撑。

📖 章节导览

整个模块计划 12 章,从问题域到方法论再到实战:

章	主题	核心问题
1	长记忆为什么是大模型的关键基础	能力跃迁、四类数据、四个异构特征、割裂管理代价
2	多类型数据的访问规律建模	KV / 向量 / 多模态 / 推理状态各自的访问模式
3	三级存储基础:HBM / DRAM / SSD 的延迟带宽与放置物理	硬件层 cheat sheet
4	KV Cache 跨层级管理论文精读	AttentionStore / LMCache / InfiniGen / CacheGen / Pensieve
5	向量索引的层次化设计	DiskANN / SPANN / FreshDiskANN / AlayaDB
6	多模态语义记忆与 Embedding 协同存储	Lance / 多模态 RAG / blob + embedding 共置
7	中间推理状态:被忽视的”第四类”	Agent scratchpad / tool trace 的存储设计
8	统一表示与跨层资源映射机理	把四类数据抽象到同一个 metadata + placement 接口
9	分层放置策略	静态 LP / 在线启发式 / 模型驱动 / 强化学习
10	自适应迁移与冷热演化	迁移触发、批量化、放大效应、保序
11	性能—成本协同优化建模	单 token 边际成本、SLO 约束、预算分配
12	端到端实战与基准设计	长记忆数据混合负载基准 + 完整 reference 实现

🌗 核心数据画像速查

┌──────────────────────────────────────────────────────────────┐
│  访问频率           生命周期         精度敏感性    资源需求    │
├──────────────────────────────────────────────────────────────┤
│ KV Cache       │ 高频(每步)│ 短(秒-分钟) │ 中    │ HBM 带宽   │
│ 向量索引       │ 中频      │ 长(月-年)   │ 低    │ 容量 + 随机IO │
│ 多模态记忆     │ 中-低频   │ 长(月-年)   │ 高    │ 容量 + 顺序IO │
│ 中间推理状态   │ 突发      │ 短(分-时)   │ 中-高 │ 写延迟     │
└──────────────────────────────────────────────────────────────┘

🍎 直觉比喻:这就像一个家——KV Cache 是手边的水杯(每秒在用),向量索引是书架上的工具书(偶尔翻),多模态记忆是地下室的相册(很久才翻一次但不能丢),中间推理状态是便利贴(写完用完就丢但当下要快)。把这四种东西都堆在客厅(HBM)显然浪费,都塞地下室(SSD)又取不及——分层放置是基本生存策略。

⏳ 关键论文时间线

2019 ─── DiskANN(NeurIPS)              单机十亿向量 SSD 索引
2021 ─── FreshDiskANN                  流式更新的 DiskANN
2022 ─── FORD(FAST)                    分离式内存事务系统(模块十三)
2023-01 ─ FlexGen(ICML)                单卡 LLM HBM/DRAM/SSD 三级卸载先驱
2023-09 ─ vLLM PagedAttention(SOSP)    单卡 KV 分页虚拟内存
2024-01 ─ DistServe(OSDI)              Prefill/Decode 解耦
2024-06 ─ InfiniGen(OSDI)              KV 重要 token 预测式动态加载
2024-07 ─ AttentionStore(ATC)          KV 三级缓存 + 多轮会话复用
2024-08 ─ CacheGen(SIGCOMM)            KV 张量编码压缩 + 流式
2024-Q4 ─ Mooncake(技术报告)            KV 中心化分离式池化(规模化)
2024-Q4 ─ Pensieve(OSDI / 后续)         多轮会话亲和路由
2025-Q1 ─ AlayaDB(HKUST)               LLM-aware 长上下文向量库
2025-Q1 ─ DeepSeek 3FS / DeepEP        AI infra 文件系统 + MoE 通信开源
2025+ ── 本项目方向                     **多类型 + 跨层级 + 低成本 + 高可靠 统一框架**

🧠 观察:2024 年是 KV 跨层级管理的爆发年(InfiniGen / AttentionStore / CacheGen / Mooncake 集中出现),2025 年起向量索引开始 LLM-native 化(AlayaDB)——但把四类数据统起来管的工作几乎空白。本项目正切入这个时间窗口。

🧭 与其它模块的关系

模块	在哪一层	与本模块的关系
模块四推理优化	单实例 KV 算子 / 量化	提供 KV 数据的算子级语义输入
模块五 Agent Memory	上层语义(Episodic/Semantic/Procedural)	提供”什么数据要记住”的应用层定义
模块零性能工程方法论	Goodput / 跨层调优	提供优化方法论(profile → 决策 → 验证)
模块十三新型互联与远程内存	RDMA / CXL / 分离式池化	提供数据通路(怎么传),本模块决定放置(放哪)
模块三分布式训练	训练侧并行 / 容错	提供训练 checkpoint 经验,可迁移到推理状态保护

⭐ 核心定位:本模块站在四个模块的交叉口——把上层应用语义(模块五)、底层数据通路(模块十三)、性能方法论(模块零)、推理算子(模块四)拼成一套面向长记忆系统的分层资源管理框架。

🚀 新人破局指南

应用层工程师(LLM Agent / RAG 开发者) ➜ 第 1、2、6、7 章看完就够,知道哪些数据可以”忘记 / 卸载 / 压缩”

推理引擎开发者(vLLM / SGLang 二次开发) ➜ 第 4 章精读,补 8、9、10 章理解上层

系统研究者(投 SOSP / OSDI 题目) ➜ 第 8、9、11 章是研究腹地;第 7、10 章是相对空白

容量规划 / 成本工程师 ➜ 第 11 章 + 模块零的成本视角,直接出预算模型

面试 AI Infra 高级岗位 ➜ 第 1、2、4、5 章覆盖了 90% 的相关题目

📚 参考资料

核心调研笔记(本路线的研究底料)

docs/research/项目-长记忆分离式存储/ —— 8 篇核心论文精读笔记 + 三模块调研清单

关键综述

Memory in the Age of AI Agents(arXiv 2512.13564, 2025) —— 长记忆系统视角综述
Towards Efficient Generative LLM Serving: A Survey(CMU, 2023):arXiv 2312.15234 —— 推理服务侧综述
A Survey on Vector Database Management Systems(2024) —— 向量库系统综述

关键论文 / 系统(精读笔记见 docs/research)

vLLM PagedAttention(SOSP’23):arXiv 2309.06180
FlexGen(ICML’23):arXiv 2303.06865
DistServe(OSDI’24):arXiv 2401.09670
InfiniGen(OSDI’24):arXiv 2406.19707
AttentionStore(ATC’24):arXiv 2403.19708
CacheGen(SIGCOMM’24):arXiv 2310.07240
Mooncake 技术报告(2024):github.com/kvcache-ai/Mooncake
DiskANN(NeurIPS’19):Microsoft Research
AlayaDB(HKUST, 2025) —— 论文/项目页

行业资源

LMCache 开源项目:github.com/LMCache/LMCache
DeepSeek 3FS / DeepEP:github.com/deepseek-ai
Milvus / Faiss / Qdrant —— 主流向量库实现
NVIDIA NIXL —— 推理 P2P 传输库

本系列其它模块

模块四推理优化、模块五 Agent Memory、模块十三新型互联与远程内存、模块零性能工程方法论

搜索