第1章:长记忆为什么是大模型的关键基础
从短轮次交互到持续学习/复杂推理/智能体任务、四类长记忆数据的画像、四个异构特征、现状割裂管理的代价,以及统一表示与跨层资源映射的研究路径
把大模型从”问答机器”升级为”持续学习 + 复杂推理 + 智能体任务执行”的系统,最先撞墙的不是算力,是存储。一个小时的 Agent 任务跑下来,KV Cache、向量索引、多模态语义记忆、中间推理状态四类数据各自堆出几十-几百 GB,它们性格各异、访问模式互斥,却被现有系统粗暴丢进显存/内存/SSD 三个互不通气的池子各自管理。本章把”为什么必须重做长记忆数据的资源管理”讲清:能力跃迁带来什么硬约束、四类数据有哪些不可忽视的画像差异、现状割裂管理的代价能算出多大、本系列后面 11 章打算沿什么路径解开这个结。
📑 目录
- 1. 从短轮次交互到长记忆系统:能力跃迁
- 2. 长记忆数据的四类画像
- 3. 四个异构特征:为什么”一刀切”管理一定输
- 4. 现状:三级存储割裂管理的代价
- 5. 研究路径:从访问规律到性能—成本协同
- 6. “低成本”的精确含义
- 7. 本章主旨与后续章节预告
- 自我检验清单
- 参考资料
1. 从短轮次交互到长记忆系统:能力跃迁
1.1 大模型应用形态的代际变化
| 形态 | 时间窗口 | 典型场景 | 对存储的要求 |
|---|---|---|---|
| Stateless 问答 | 2020-2023 | 单 prompt → 单 response | HBM 装下当前请求 KV 即可 |
| 多轮对话 | 2023-2024 | ChatGPT 类多轮聊天 | + 跨轮 KV 复用,DRAM 容量 |
| 长上下文 | 2024 | Gemini 1M / Claude 200K | + 长 KV 卸载 |
| RAG / Agent | 2024-2025 | 工具调用、知识库召回、长时任务 | + 向量库 + 多模态 + scratchpad |
| 持续学习 / 智能体 | 2025+ | 自主长时任务、跨日跨周状态 | + 跨设备一致性、长生命周期数据 |
每往后走一步,对存储一侧提的要求都在质变,而不是量变:
- 从”装下”(单请求容量)
- 到”复用”(多轮跨实例)
- 到”卸载”(长上下文挤不进 HBM)
- 到”召回”(外部知识库)
- 到”持有”(跨日跨周持久状态 + 一致性)
🌟 核心判断:长记忆不是某个推理优化点,是大模型走向 Agent 时代的基础设施前提——存储层做不到位,上面的能力跃迁只能停留在 demo 级别。
1.2 三类下游能力被同一个瓶颈卡住
| 下游能力 | 表象需求 | 真正缺的能力 |
|---|---|---|
| 持续学习 | 模型记住用户、跨日演进偏好 | 长生命周期 + 增量更新 + 一致性的存储底座 |
| 复杂推理 | 多跳推理、长 chain-of-thought | 中间推理状态的低延迟读写 + 选择性持久化 |
| 智能体任务执行 | 长时多 step Agent 任务 | 多类型异构数据(KV + 向量 + 工具调用历史 + 多模态)同源管理 |
⭐ 观察:三类能力共用同一类基础设施缺陷——多类型异构数据的协同存储与跨层映射缺失。这就是本系列要攻的腹地。
2. 长记忆数据的四类画像
四类数据各自有清晰的角色定位。本节先给画像,第 2 章会做精细的访问规律建模。
2.1 KV Cache:推理实时状态
每个 Transformer layer 的 attention 把过去 token 的 key/value 张量存下来。一次 32K context 推理的 KV 在 fp16 下几个 GB,1M context 几十-几百 GB。
关键特征:
- 写入 = token-by-token 顺序追加(decode 阶段)、batch 一次写入(prefill 阶段)
- 读取 = 每个 layer 的 attention 都要扫一遍,强随机访问
- 时序极强:第 t 步的 KV 给第 t+1, t+2, … 用
- 跨用户共享主要在 prefix(system prompt、文档前缀、Agent skeleton)
2.2 向量索引:Agent 长期记忆 + RAG 知识库
把文本/图像/代码片段的 embedding 存下,用近似最近邻(ANN)在线召回。规模从千万级(单用户 Agent 长记忆)到百亿级(企业知识库)。
关键特征:
- 主结构 = 图(HNSW / Vamana)或聚类(IVF / SPANN)
- 访问 = 一次查询触发几十到几百次邻居展开,每一跳跨内存/磁盘
- 大部分向量”很久不动”(冷),少数热点反复访问
- 写入 = 新数据流式追加,索引增量重建是工程难点
2.3 多模态语义记忆:原始 blob + embedding 共生
不止存 embedding——还要存原始图像 / 音频 / 视频 / 长文档。当 Agent 决定”我要看一眼那张图”,必须能拿到原 blob,而不是嵌入向量。
关键特征:
- 大对象顺序读为主(几 MB - 几百 MB 单条)
- embedding(KB 级)与 blob(MB 级)生命周期相同但访问模式完全不同
- 长生命周期(月-年级别)
- 精度敏感:多模态 embedding 比 KV 更敏感于压缩/量化
2.4 中间推理状态:被忽视的”第四类”
Agent 执行长时任务时产生的:
- Chain-of-Thought 的 scratchpad
- 工具调用的输入/输出/错误日志
- Multi-turn 决策历史
- 推理树(MCTS / ReAct 树)的中间节点
关键特征:
- 写入零碎(每个 tool call 几 KB,但频次高)
- 读取突发(任务回顾/分支回退时一次性拉很多)
- 时序强,且有选择性持久化需求(关键决策要存,失败的尝试可丢)
- 几乎没有学术系统专门研究这一类——是项目的学术空白机会
🍎 直觉比喻:把整个长记忆系统比作一个家庭:
- KV Cache = 你正在喝的咖啡杯(每秒在用)
- 向量索引 = 书房里的工具书(常翻但不天天)
- 多模态记忆 = 阁楼里的相册(很少翻但绝不能丢)
- 中间推理状态 = 厨房台面上的便利贴(随手写、随手扔)
把这四类东西都堆在客厅(HBM)是奢侈;都塞阁楼(SSD)又拿不及。分类管理是基本生存策略。
3. 四个异构特征:为什么”一刀切”管理一定输
四类数据在四个维度上各自独立变化——这意味着任何一个维度的”通用策略”必然在其它维度上失效。
3.1 访问频率分布:从每秒数千次到每天一次
访问频率(对数尺度)
每秒级 │ KV Cache(active session)
│
每分级 │ KV Cache(spilled)、scratchpad 回放
│
每小时 │ 向量索引(热点)、多模态 embedding(热点)
│
每天级 │ 向量索引(冷)、多模态 blob(归档)
│
每月级 │ 多模态原始数据(超冷)
↓
🧠 结论:“放哪一级”必须按频率分布,而不是按数据类型——同一类向量索引里热点向量该进 HBM,冷向量该进 SSD,强行整体放一级一定浪费。
3.2 生命周期:秒级到年级,六个数量级跨度
| 生命周期 | 数据 |
|---|---|
| 秒-分钟 | active KV、scratchpad 当前轮 |
| 分钟-小时 | spilled KV、tool call trace |
| 小时-天 | session 间的 KV 复用、对话历史 |
| 天-月 | Agent episodic 记忆、近期向量 |
| 月-年 | 用户偏好、历史对话归档、企业知识库 |
🌟 关键观察:生命周期决定了应该用什么后端介质——HBM 的 8 TB/s 浪费在年级数据上是疯了,SSD 的几 ms 延迟用在秒级数据上是事故。六个数量级的跨度天然要求六个数量级的存储分层。
3.3 精度敏感性:有损压缩的边界各不相同
| 数据 | 容忍精度 | 原因 |
|---|---|---|
| KV Cache | 中(可量化到 4 bit / FP8) | 模型 attention 对小扰动鲁棒 |
| 向量索引 | 低(PQ 量化、二值化都行) | ANN 本来就是近似 |
| 多模态 embedding | 高(轻量量化) | 召回精度敏感 |
| 多模态原始 blob | 极高(无损或目标压缩) | 一旦丢失不可恢复 |
| 中间推理状态 | 中-高(取决于任务) | 决策回放需要精确,但 thought 文本可压缩 |
⭐ 设计含义:有损编码(参考 CacheGen)是 KV / 向量 的强工具,但对原始 blob 是禁区——统一抽象必须把”可压缩档位”作为一等参数。
3.4 资源需求异构:计算-带宽-容量-IOPS 各占一头
| 数据 | 主瓶颈 |
|---|---|
| KV Cache | HBM 带宽(每步 attention 都要扫) |
| 向量索引 | 随机 IOPS + 容量(图遍历多跳) |
| 多模态 blob | 顺序带宽 + 容量(大对象批量读) |
| 中间推理状态 | 写延迟 + 持久化(零碎高频写) |
🍎 类比:KV 像 F1 赛车(高速但短距离),向量索引像越野(随机方向),多模态 blob 像货车(大量但单向),scratchpad 像快递员(零碎多回合)。给四个角色配同一辆车一定有人不爽。
4. 现状:三级存储割裂管理的代价
4.1 现有系统各自为政
| 系统 | 解决什么 | 不解决什么 |
|---|---|---|
| vLLM PagedAttention | 单卡 HBM 内 KV 分页 | 跨层级、跨实例、向量、多模态 |
| Mooncake / DistServe | 多实例 KV 池化 + PD 解耦 | 向量库、多模态、scratchpad |
| Milvus / Faiss / Qdrant | 向量索引主存与持久化 | KV Cache、推理实时状态 |
| LanceDB / 对象存储 | 多模态原始数据 + embedding | 推理 KV 与 scratchpad |
| ZeRO-Inference / FlexGen | 模型权重 + KV 三级卸载 | 向量、多模态、scratchpad |
| Letta / Mem0 / A-MEM | Agent 上层语义记忆 | 底层放置 / 跨层级一致性 |
🌟 关键事实:没有任何一个开源/学术系统能同时管 KV + 向量 + 多模态 + scratchpad 四类数据的跨层级放置。生产系统里这四类数据由四套独立的子系统各自维护,各自有自己的缓存、淘汰、压缩策略——结果是:
4.2 割裂管理的具体代价
| 代价类型 | 体现 |
|---|---|
| 资源利用低 | KV pool 用了 80% HBM,向量库还在用纯 RAM——HBM 旁的 GPU compute 闲置 |
| 抢占无序 | 推理流量突增,KV 占满 HBM 把多模态 embedding 挤到 SSD,RAG 召回延迟突然飙升 |
| 数据冗余 | 同一份知识在 KV(prefix) + 向量库 + 多模态 blob 三处冗余存储,合计成本 ×3 |
| 跨层级搬运放大 | 一次 attention 触发的 KV 拉取可能附带 100× 的 SSD random IO,同机其它服务被拖累 |
| 运维不可解释 | 工程师无法定位”为什么今天 token 成本突然涨 30%“——四个子系统的 cost 没有汇总视图 |
📍 可量化的代价(行业经验值):同一份长记忆负载在”四子系统各自调优” vs “统一管理理想方案”下,token 单位成本经常相差 2-5 倍。
4.3 反直觉:换更大 HBM 也救不了
直觉上”GPU 显存涨 4 倍能装下大部分数据”——但不解决根本问题:
- HBM 容量再大也仍是六个数量级生命周期跨度的最贵那一级
- 多类型数据各自访问模式不变,热点冲突仍存在
- 成本没降——HBM 单位 GB 成本是 SSD 的 100-1000 倍
🧠 关键洞察:这是一个调度问题,不是容量问题。不解决调度,堆硬件只是把代价摊薄,不消除。
5. 研究路径:从访问规律到性能—成本协同
本系列后续 11 章对应一条完整的研究路径,层层递进:
┌──────────────────────────────┐
Ch2 │ 访问规律建模 │
│ (KV / 向量 / 多模态 / 推理状态)│
└──────────────┬───────────────┘
│
┌──────────────▼───────────────┐
Ch3 │ 三级存储物理 cheat sheet │
│ (HBM / DRAM / SSD) │
└──────────────┬───────────────┘
│
┌────────────────┼─────────────────┐
▼ ▼ ▼
Ch4-7 现有方案精读 按数据类型纵向 识别空白
(KV / 向量 / 整理优秀实践 (推理状态)
多模态 / 推理)
│
┌──────────────▼───────────────┐
Ch8 │ 统一表示与跨层资源映射机理 │
│ (统一抽象层 + 调度接口) │
└──────────────┬───────────────┘
│
┌────────────────┼─────────────────┐
▼ ▼ ▼
Ch9-10 分层放置 自适应迁移 保序与一致性
(LP/启发式/RL) (冷热演化) (跨层不撕裂)
│
┌──────────────▼───────────────┐
Ch11 │ 性能—成本协同优化建模 │
│ (单 token 边际成本 + SLO 约束)│
└──────────────┬───────────────┘
│
┌──────────────▼───────────────┐
Ch12 │ 端到端实战 + 基准设计 │
└──────────────────────────────┘
🧠 核心研究要素三件套:
| 要素 | 含义 | 对应章节 |
|---|---|---|
| 访问规律 | 四类数据的频率/时序/局部性建模 | Ch2 |
| 统一表示 | 一套抽象层包容四类数据的 metadata + placement 接口 | Ch8 |
| 跨层资源映射机理 | ”数据画像 + 物理层级 → 最优放置”的映射函数 | Ch9-11 |
⭐ 方法论上的核心创新:把放置从”工程直觉”变成”形式化的优化问题”——FlexGen(模块零第 10 章已讨论)证明了这条路径在单卡 LLM 卸载上可行,我们要把它扩到多类型 + 在线 + 多约束(性能 + 成本 + 可靠性)。
6. “低成本”的精确含义
申报书里”低成本”是关键词,但要警惕被误读为”用更便宜的硬件”。本路线的”低成本”有四层精确含义:
6.1 单 token 边际成本
长记忆 token 边际成本 = ─────────────────────────────────────
一段时间内服务的 token 数
(硬件折旧 + 电费 + 运维) × 长记忆访问占用份额
目标:让”每多服务一个长记忆 token”的边际成本可被精确建模、可被优化。Ch11 是腹地。
6.2 统计意义的资源利用率
不是单点峰值,是 “长时间窗口内 HBM/DRAM/SSD 各自的 useful 吞吐 / 容量占用 / 闲置时间” 的统计分布。割裂管理通常某些层闲置某些层挤爆,统一管理把分布拉平。
6.3 副本开销可控
长记忆要可靠——多副本是简单粗暴的方法,但 3 副本意味着 3 倍存储成本。目标:用纠删码 + 冷热分级容错替代,把开销压到 1.5× 以下(详见后续与第三模块的协作章节)。
6.4 总持有成本(TCO)可解释
不只是采购成本,还包括运维、能耗、生命周期。Ch11 给完整 TCO 模型框架——这也是给电信类客户讲故事最有效的角度。
🌟 结论:“低成本”=四个维度上同时压缩(边际成本 ↓、利用率分布 ↑、副本开销 ↓、TCO 模型可解释)——任一维度单独抓都不够。
7. 本章主旨与后续章节预告
7.1 本章一句话总结
🌟 大模型从短轮次走向 Agent 时代的关键瓶颈是长记忆数据的存储管理——四类数据(KV/向量/多模态/推理状态)在四个维度上(频率/生命周期/精度/资源)显著异构,现有系统割裂管理代价巨大,本系列要给的是一套统一表示 + 跨层映射 + 性能成本协同的方法论框架。
7.2 下一章预告
下一章(第 2 章)开始把”画像”做成可量化的访问规律模型——
- KV Cache 的 layer-wise / batch-wise 访问指纹
- 向量索引的图遍历访问轨迹与 IO 放大系数
- 多模态对象的 burst-read 模式与 prefetch 友好度
- 中间推理状态的写突发与回放概率
这些定量模型是 Ch8 之后所有放置/迁移/成本算法的输入。没有这一章的访问规律建模,后面的所有调度算法都是无源之水。
✅ 自我检验清单
- 能力跃迁:能用一段话讲清”短轮次 → 长记忆 Agent”在存储侧带来了哪些新硬约束
- 四类数据:能默写 KV Cache / 向量索引 / 多模态语义记忆 / 中间推理状态 各自的角色与典型规模
- 四个异构特征:能从访问频率、生命周期、精度敏感性、资源需求四维度对四类数据做画像对比
- 割裂管理代价:能举至少 3 个”四子系统各自为政”导致的具体损失场景
- 反直觉:能解释为什么”换更大 HBM”不能根本解决问题(它是调度问题不是容量问题)
- 研究三件套:能默写”访问规律 + 统一表示 + 跨层资源映射机理”
- 低成本四层:边际成本 / 资源利用分布 / 副本开销 / TCO,各举一个评判指标
- 本章命题与下章承接:能讲清第 1 章定义问题域,第 2 章定量化访问规律,Ch8-11 是方法论腹地
📚 参考资料
核心研究底料
- 项目调研 - 长记忆分离式存储 —— 8 篇核心论文精读笔记 + 三模块调研清单(本路线的研究腹地)
关键综述
- Memory in the Age of AI Agents (arXiv 2512.13564, 2025) —— 长记忆系统综述
- Towards Efficient Generative LLM Serving: A Survey(CMU, 2023):arXiv 2312.15234 —— 推理系统综述
- A Survey on Vector Database Management Systems(2024) —— 向量库综述
关键论文(Ch4-7 会精读)
- vLLM PagedAttention(SOSP’23):arXiv 2309.06180
- AttentionStore(USENIX ATC’24)
- InfiniGen(OSDI’24)
- CacheGen(SIGCOMM’24)
- Mooncake 技术报告:github.com/kvcache-ai/Mooncake
- DiskANN(NeurIPS’19) / FreshDiskANN(2021)
- AlayaDB(HKUST, 2025)
- FlexGen(ICML’23):arXiv 2303.06865
行业资源
- LMCache 开源项目:github.com/LMCache/LMCache
- Mooncake 开源:github.com/kvcache-ai/Mooncake
- DeepSeek 3FS / DeepEP:github.com/deepseek-ai
- Milvus / Qdrant / LanceDB / Weaviate —— 主流向量库
本系列其它模块
- 模块四 推理优化(KV Cache 算子层)
- 模块五 Agent Memory(上层语义记忆框架)
- 模块十三 新型互联与远程内存(数据通路)
- 模块零 性能工程方法论(Goodput 与跨层调优心智)