跳到主要内容
长记忆大模型系统

第1章:长记忆为什么是大模型的关键基础

从短轮次交互到持续学习/复杂推理/智能体任务、四类长记忆数据的画像、四个异构特征、现状割裂管理的代价,以及统一表示与跨层资源映射的研究路径

长记忆 KV Cache 向量索引 多模态记忆 中间推理状态 异构存储 分层放置

把大模型从”问答机器”升级为”持续学习 + 复杂推理 + 智能体任务执行”的系统,最先撞墙的不是算力,是存储。一个小时的 Agent 任务跑下来,KV Cache、向量索引、多模态语义记忆、中间推理状态四类数据各自堆出几十-几百 GB,它们性格各异、访问模式互斥,却被现有系统粗暴丢进显存/内存/SSD 三个互不通气的池子各自管理。本章把”为什么必须重做长记忆数据的资源管理”讲清:能力跃迁带来什么硬约束、四类数据有哪些不可忽视的画像差异、现状割裂管理的代价能算出多大、本系列后面 11 章打算沿什么路径解开这个结。

📑 目录


1. 从短轮次交互到长记忆系统:能力跃迁

1.1 大模型应用形态的代际变化

形态时间窗口典型场景对存储的要求
Stateless 问答2020-2023单 prompt → 单 responseHBM 装下当前请求 KV 即可
多轮对话2023-2024ChatGPT 类多轮聊天+ 跨轮 KV 复用,DRAM 容量
长上下文2024Gemini 1M / Claude 200K+ 长 KV 卸载
RAG / Agent2024-2025工具调用、知识库召回、长时任务+ 向量库 + 多模态 + scratchpad
持续学习 / 智能体2025+自主长时任务、跨日跨周状态+ 跨设备一致性、长生命周期数据

每往后走一步,对存储一侧提的要求都在质变,而不是量变:

  • 从”装下”(单请求容量)
  • 到”复用”(多轮跨实例)
  • 到”卸载”(长上下文挤不进 HBM)
  • 到”召回”(外部知识库)
  • 到”持有”(跨日跨周持久状态 + 一致性)

🌟 核心判断:长记忆不是某个推理优化点,是大模型走向 Agent 时代的基础设施前提——存储层做不到位,上面的能力跃迁只能停留在 demo 级别。

1.2 三类下游能力被同一个瓶颈卡住

下游能力表象需求真正缺的能力
持续学习模型记住用户、跨日演进偏好长生命周期 + 增量更新 + 一致性的存储底座
复杂推理多跳推理、长 chain-of-thought中间推理状态的低延迟读写 + 选择性持久化
智能体任务执行长时多 step Agent 任务多类型异构数据(KV + 向量 + 工具调用历史 + 多模态)同源管理

观察:三类能力共用同一类基础设施缺陷——多类型异构数据的协同存储与跨层映射缺失。这就是本系列要攻的腹地。


2. 长记忆数据的四类画像

四类数据各自有清晰的角色定位。本节先给画像,第 2 章会做精细的访问规律建模。

2.1 KV Cache:推理实时状态

每个 Transformer layer 的 attention 把过去 token 的 key/value 张量存下来。一次 32K context 推理的 KV 在 fp16 下几个 GB,1M context 几十-几百 GB。

关键特征:

  • 写入 = token-by-token 顺序追加(decode 阶段)、batch 一次写入(prefill 阶段)
  • 读取 = 每个 layer 的 attention 都要扫一遍,强随机访问
  • 时序极强:第 t 步的 KV 给第 t+1, t+2, … 用
  • 跨用户共享主要在 prefix(system prompt、文档前缀、Agent skeleton)

2.2 向量索引:Agent 长期记忆 + RAG 知识库

把文本/图像/代码片段的 embedding 存下,用近似最近邻(ANN)在线召回。规模从千万级(单用户 Agent 长记忆)到百亿级(企业知识库)。

关键特征:

  • 主结构 = 图(HNSW / Vamana)或聚类(IVF / SPANN)
  • 访问 = 一次查询触发几十到几百次邻居展开,每一跳跨内存/磁盘
  • 大部分向量”很久不动”(冷),少数热点反复访问
  • 写入 = 新数据流式追加,索引增量重建是工程难点

2.3 多模态语义记忆:原始 blob + embedding 共生

不止存 embedding——还要存原始图像 / 音频 / 视频 / 长文档。当 Agent 决定”我要看一眼那张图”,必须能拿到原 blob,而不是嵌入向量。

关键特征:

  • 大对象顺序读为主(几 MB - 几百 MB 单条)
  • embedding(KB 级)与 blob(MB 级)生命周期相同但访问模式完全不同
  • 长生命周期(月-年级别)
  • 精度敏感:多模态 embedding 比 KV 更敏感于压缩/量化

2.4 中间推理状态:被忽视的”第四类”

Agent 执行长时任务时产生的:

  • Chain-of-Thought 的 scratchpad
  • 工具调用的输入/输出/错误日志
  • Multi-turn 决策历史
  • 推理树(MCTS / ReAct 树)的中间节点

关键特征:

  • 写入零碎(每个 tool call 几 KB,但频次高)
  • 读取突发(任务回顾/分支回退时一次性拉很多)
  • 时序强,且有选择性持久化需求(关键决策要存,失败的尝试可丢)
  • 几乎没有学术系统专门研究这一类——是项目的学术空白机会

🍎 直觉比喻:把整个长记忆系统比作一个家庭:

  • KV Cache = 你正在喝的咖啡杯(每秒在用)
  • 向量索引 = 书房里的工具书(常翻但不天天)
  • 多模态记忆 = 阁楼里的相册(很少翻但绝不能丢)
  • 中间推理状态 = 厨房台面上的便利贴(随手写、随手扔)

把这四类东西都堆在客厅(HBM)是奢侈;都塞阁楼(SSD)又拿不及。分类管理是基本生存策略


3. 四个异构特征:为什么”一刀切”管理一定输

四类数据在四个维度上各自独立变化——这意味着任何一个维度的”通用策略”必然在其它维度上失效。

3.1 访问频率分布:从每秒数千次到每天一次

访问频率(对数尺度)

每秒级 │ KV Cache(active session)

每分级 │ KV Cache(spilled)、scratchpad 回放

每小时 │ 向量索引(热点)、多模态 embedding(热点)

每天级 │ 向量索引(冷)、多模态 blob(归档)

每月级 │ 多模态原始数据(超冷)

🧠 结论:“放哪一级”必须按频率分布,而不是按数据类型——同一类向量索引里热点向量该进 HBM,冷向量该进 SSD,强行整体放一级一定浪费

3.2 生命周期:秒级到年级,六个数量级跨度

生命周期数据
秒-分钟active KV、scratchpad 当前轮
分钟-小时spilled KV、tool call trace
小时-天session 间的 KV 复用、对话历史
天-月Agent episodic 记忆、近期向量
月-年用户偏好、历史对话归档、企业知识库

🌟 关键观察:生命周期决定了应该用什么后端介质——HBM 的 8 TB/s 浪费在年级数据上是疯了,SSD 的几 ms 延迟用在秒级数据上是事故。六个数量级的跨度天然要求六个数量级的存储分层

3.3 精度敏感性:有损压缩的边界各不相同

数据容忍精度原因
KV Cache中(可量化到 4 bit / FP8)模型 attention 对小扰动鲁棒
向量索引低(PQ 量化、二值化都行)ANN 本来就是近似
多模态 embedding高(轻量量化)召回精度敏感
多模态原始 blob极高(无损或目标压缩)一旦丢失不可恢复
中间推理状态中-高(取决于任务)决策回放需要精确,但 thought 文本可压缩

设计含义:有损编码(参考 CacheGen)是 KV / 向量 的强工具,但对原始 blob 是禁区——统一抽象必须把”可压缩档位”作为一等参数。

3.4 资源需求异构:计算-带宽-容量-IOPS 各占一头

数据主瓶颈
KV CacheHBM 带宽(每步 attention 都要扫)
向量索引随机 IOPS + 容量(图遍历多跳)
多模态 blob顺序带宽 + 容量(大对象批量读)
中间推理状态写延迟 + 持久化(零碎高频写)

🍎 类比:KV 像 F1 赛车(高速但短距离),向量索引像越野(随机方向),多模态 blob 像货车(大量但单向),scratchpad 像快递员(零碎多回合)。给四个角色配同一辆车一定有人不爽


4. 现状:三级存储割裂管理的代价

4.1 现有系统各自为政

系统解决什么不解决什么
vLLM PagedAttention单卡 HBM 内 KV 分页跨层级、跨实例、向量、多模态
Mooncake / DistServe多实例 KV 池化 + PD 解耦向量库、多模态、scratchpad
Milvus / Faiss / Qdrant向量索引主存与持久化KV Cache、推理实时状态
LanceDB / 对象存储多模态原始数据 + embedding推理 KV 与 scratchpad
ZeRO-Inference / FlexGen模型权重 + KV 三级卸载向量、多模态、scratchpad
Letta / Mem0 / A-MEMAgent 上层语义记忆底层放置 / 跨层级一致性

🌟 关键事实:没有任何一个开源/学术系统能同时管 KV + 向量 + 多模态 + scratchpad 四类数据的跨层级放置。生产系统里这四类数据由四套独立的子系统各自维护,各自有自己的缓存、淘汰、压缩策略——结果是:

4.2 割裂管理的具体代价

代价类型体现
资源利用低KV pool 用了 80% HBM,向量库还在用纯 RAM——HBM 旁的 GPU compute 闲置
抢占无序推理流量突增,KV 占满 HBM 把多模态 embedding 挤到 SSD,RAG 召回延迟突然飙升
数据冗余同一份知识在 KV(prefix) + 向量库 + 多模态 blob 三处冗余存储,合计成本 ×3
跨层级搬运放大一次 attention 触发的 KV 拉取可能附带 100× 的 SSD random IO,同机其它服务被拖累
运维不可解释工程师无法定位”为什么今天 token 成本突然涨 30%“——四个子系统的 cost 没有汇总视图

📍 可量化的代价(行业经验值):同一份长记忆负载在”四子系统各自调优” vs “统一管理理想方案”下,token 单位成本经常相差 2-5 倍

4.3 反直觉:换更大 HBM 也救不了

直觉上”GPU 显存涨 4 倍能装下大部分数据”——但不解决根本问题:

  • HBM 容量再大也仍是六个数量级生命周期跨度的最贵那一级
  • 多类型数据各自访问模式不变,热点冲突仍存在
  • 成本没降——HBM 单位 GB 成本是 SSD 的 100-1000 倍

🧠 关键洞察:这是一个调度问题,不是容量问题。不解决调度,堆硬件只是把代价摊薄,不消除。


5. 研究路径:从访问规律到性能—成本协同

本系列后续 11 章对应一条完整的研究路径,层层递进:

                ┌──────────────────────────────┐
   Ch2          │ 访问规律建模                 │
                │ (KV / 向量 / 多模态 / 推理状态)│
                └──────────────┬───────────────┘

                ┌──────────────▼───────────────┐
   Ch3          │ 三级存储物理 cheat sheet     │
                │ (HBM / DRAM / SSD)           │
                └──────────────┬───────────────┘

              ┌────────────────┼─────────────────┐
              ▼                ▼                 ▼
   Ch4-7    现有方案精读   按数据类型纵向        识别空白
            (KV / 向量 /  整理优秀实践           (推理状态)
            多模态 / 推理)

                ┌──────────────▼───────────────┐
   Ch8          │ 统一表示与跨层资源映射机理   │
                │ (统一抽象层 + 调度接口)       │
                └──────────────┬───────────────┘

              ┌────────────────┼─────────────────┐
              ▼                ▼                 ▼
   Ch9-10  分层放置          自适应迁移         保序与一致性
           (LP/启发式/RL)    (冷热演化)         (跨层不撕裂)

                ┌──────────────▼───────────────┐
   Ch11         │ 性能—成本协同优化建模       │
                │ (单 token 边际成本 + SLO 约束)│
                └──────────────┬───────────────┘

                ┌──────────────▼───────────────┐
   Ch12         │ 端到端实战 + 基准设计        │
                └──────────────────────────────┘

🧠 核心研究要素三件套:

要素含义对应章节
访问规律四类数据的频率/时序/局部性建模Ch2
统一表示一套抽象层包容四类数据的 metadata + placement 接口Ch8
跨层资源映射机理”数据画像 + 物理层级 → 最优放置”的映射函数Ch9-11

方法论上的核心创新:把放置从”工程直觉”变成”形式化的优化问题”——FlexGen(模块零第 10 章已讨论)证明了这条路径在单卡 LLM 卸载上可行,我们要把它扩到多类型 + 在线 + 多约束(性能 + 成本 + 可靠性)。


6. “低成本”的精确含义

申报书里”低成本”是关键词,但要警惕被误读为”用更便宜的硬件”。本路线的”低成本”有四层精确含义:

6.1 单 token 边际成本

长记忆 token 边际成本 = ─────────────────────────────────────
                       一段时间内服务的 token 数
                       (硬件折旧 + 电费 + 运维) × 长记忆访问占用份额

目标:让”每多服务一个长记忆 token”的边际成本可被精确建模、可被优化。Ch11 是腹地。

6.2 统计意义的资源利用率

不是单点峰值,是 “长时间窗口内 HBM/DRAM/SSD 各自的 useful 吞吐 / 容量占用 / 闲置时间” 的统计分布。割裂管理通常某些层闲置某些层挤爆,统一管理把分布拉平。

6.3 副本开销可控

长记忆要可靠——多副本是简单粗暴的方法,但 3 副本意味着 3 倍存储成本。目标:用纠删码 + 冷热分级容错替代,把开销压到 1.5× 以下(详见后续与第三模块的协作章节)。

6.4 总持有成本(TCO)可解释

不只是采购成本,还包括运维、能耗、生命周期。Ch11 给完整 TCO 模型框架——这也是给电信类客户讲故事最有效的角度。

🌟 结论:“低成本”=四个维度上同时压缩(边际成本 ↓、利用率分布 ↑、副本开销 ↓、TCO 模型可解释)——任一维度单独抓都不够。


7. 本章主旨与后续章节预告

7.1 本章一句话总结

🌟 大模型从短轮次走向 Agent 时代的关键瓶颈是长记忆数据的存储管理——四类数据(KV/向量/多模态/推理状态)在四个维度上(频率/生命周期/精度/资源)显著异构,现有系统割裂管理代价巨大,本系列要给的是一套统一表示 + 跨层映射 + 性能成本协同的方法论框架

7.2 下一章预告

下一章(第 2 章)开始把”画像”做成可量化的访问规律模型——

  • KV Cache 的 layer-wise / batch-wise 访问指纹
  • 向量索引的图遍历访问轨迹与 IO 放大系数
  • 多模态对象的 burst-read 模式与 prefetch 友好度
  • 中间推理状态的写突发与回放概率

这些定量模型是 Ch8 之后所有放置/迁移/成本算法的输入。没有这一章的访问规律建模,后面的所有调度算法都是无源之水


✅ 自我检验清单

  • 能力跃迁:能用一段话讲清”短轮次 → 长记忆 Agent”在存储侧带来了哪些新硬约束
  • 四类数据:能默写 KV Cache / 向量索引 / 多模态语义记忆 / 中间推理状态 各自的角色与典型规模
  • 四个异构特征:能从访问频率、生命周期、精度敏感性、资源需求四维度对四类数据做画像对比
  • 割裂管理代价:能举至少 3 个”四子系统各自为政”导致的具体损失场景
  • 反直觉:能解释为什么”换更大 HBM”不能根本解决问题(它是调度问题不是容量问题)
  • 研究三件套:能默写”访问规律 + 统一表示 + 跨层资源映射机理”
  • 低成本四层:边际成本 / 资源利用分布 / 副本开销 / TCO,各举一个评判指标
  • 本章命题与下章承接:能讲清第 1 章定义问题域,第 2 章定量化访问规律,Ch8-11 是方法论腹地

📚 参考资料

核心研究底料

关键综述

  • Memory in the Age of AI Agents (arXiv 2512.13564, 2025) —— 长记忆系统综述
  • Towards Efficient Generative LLM Serving: A Survey(CMU, 2023):arXiv 2312.15234 —— 推理系统综述
  • A Survey on Vector Database Management Systems(2024) —— 向量库综述

关键论文(Ch4-7 会精读)

行业资源

本系列其它模块

  • 模块四 推理优化(KV Cache 算子层)
  • 模块五 Agent Memory(上层语义记忆框架)
  • 模块十三 新型互联与远程内存(数据通路)
  • 模块零 性能工程方法论(Goodput 与跨层调优心智)