Agent Memory ANN 系统 学习路线
从静态向量库到 Agent 时代的多 Agent 动态 ANN 协同——把 IVF / HNSW / SPFresh / Quake / Pancake / d-HNSW 这条 16 年演进线讲透,配 Pancake 论文三章精读、6 大未解问题与研究方法论,回答「Agent Memory 在系统层为什么是个独立问题」
如果说 模块五 把 Agent Memory 的上层语义(Episodic / Semantic / Procedural)讲透了、模块十六 把分离式硬件(RDMA / CXL / UB)和 Agent Memory 的协同讲透了——本模块要回答中间最硬的那段:当 Agent 真的去查记忆时,底下那套 ANN 索引到底发生了什么?为什么把一个静态 Faiss 库换成动态 agent 工作流,性能就崩塌?为什么多 Agent 共享记忆比单 Agent 难一个数量级?为什么 GPU 加速向量搜索这件事,在 LLM 推理同处一卡的场景下,套不上传统 GPU-Faiss 的方案?
我们以 Pancake (arXiv:2602.21477) 这篇 2026 年 2 月的工作为核心论文,把它精读到三章,再把它前后 16 年的演进线(IVF 2010 → Faiss → HNSW → DiskANN → SPFresh → Quake → Pancake → d-HNSW)拉直,最后用一章总结 6 大未解问题和研究方法论——给你一份可以直接拿来做研究的领域地图。
📑 目录
🌟 全景:Agent Memory ANN 是个什么独立问题
很多人以为”Agent Memory 不就是 RAG 的同义词嘛——把对话存进 Faiss、需要时搜出来”。这个看法在 2023 年还能成立,但 2024-2026 年这两年发生了三件事,让 Agent Memory 的 ANN 部分独立成一个研究方向:
| 事实 | 来源 / 数据 |
|---|---|
| Memory 操作占总时长 82%+ | Pancake (2026) 在 Mem-GPT / A-MEM workload 下实测 |
| 千亿级向量库被搬上单机 | MS MARCO 8M passages 已成 baseline,工业界已测到 100M+ 单机 |
| 多 Agent 共享记忆变成常态 | MIRIX / Collaborative Memory / Token Coherence 三篇 2025-2026 工作 |
这些都不是 RAG 时代要面对的——RAG 是”一次检索 → 一次生成”,Agent Memory 是”每一步都在交替读写,跨 agent 共享,索引一直在变”。
🌟 关键判断:RAG 的 ANN 假设(静态、批量、单租户)在 Agent Memory 里全部不成立——这是这个领域作为独立研究方向的底层逻辑。
🍎 直觉比喻:
- 静态 ANN(Faiss / HNSW) = 字典——印好之后查得飞快,但不能加新词
- 动态 ANN(SPFresh / Quake) = 活页本——能加新词,但批量整理才稳
- Agent Memory ANN(Pancake) = 一个正在被多人同时翻阅、同时往里塞便签的活页本——每次翻都得知道最新状态,每次塞都不能打断别人翻
- 分离式 Agent ANN(d-HNSW) = 这个活页本被拆到不同房间,得跑着翻
本模块的腹地,就是从”字典”到”被多人塞便签的活页本”这一段曲线。
📜 16 年演进时间轴
2010 ─── IVF 静态聚类索引,定义了"粗搜 + 精搜"两阶段范式
│
2018 ─── HNSW 图索引登场,单查询毫秒级,工业事实标准
2019 ─── DiskANN / Vamana 把图搬到磁盘,10× 容量
2020 ─── ScaNN / OPQ 量化加速,召回-内存的新 Pareto
│
2021 ─── FreshDiskANN / SPANN "动态 ANN"开始出现:流式插入 + 周期 rebuild
2023 ─── Mem-GPT OS-style memory,第一次把"long-term memory"做成 LLM 应用层概念
2023 ─── SPFresh 流式插入 + 局部 rebalance,工程化标杆
│ ↑↑↑ 此时仍是「批量周期更新」假设
│
2024 ─── A-MEM (Zettelkasten) agent 记忆需要语义链接,不再只是向量
2025 ─── MIRIX (6 memory types) 多 agent + 多类型记忆 + 主动检索
2025 ─── AgeMem (RL lifecycle) store/retrieve/update/summarize/discard 五种动作
2025 ─── MemOS 把 Memory 当系统资源管理(MemCube 抽象)
2025 ─── SimpleMem 语义压缩 + 意图感知检索
│ ↑↑↑ Stage 4:功能优先,不关注「搜得快」
│
2025 ─── Quake (OSDI) 自适应索引:按访问频率分裂簇
2025 ─── LSM-VEC LSM-tree + 图索引,盘上动态
2025 ─── d-HNSW (HotStorage) RDMA 解耦的 HNSW
2025 ─── SHINE 可扩展 HNSW + 分离式内存
2026 ─── Pancake ⭐ FSM 模式建模 + 多 agent 混合图 + GPU-CPU 协同
2026 ─── Token Coherence MESI 协议适配多 agent LLM 同步
2026 ─── CoTra / SPIRE 分布式 RDMA 向量搜索的最新尝试
│ ↑↑↑ Stage 5:性能优先,把 agent workload 当一等公民
⭐ 本模块定位:Stage 5 的腹地——把这条线从 IVF 一路讲到 Pancake,让你拿到完整的工程谱系。
⚙️ 核心矛盾迁移图
每个 stage 的 ANN 系统都在解一个核心矛盾。把它们排到一起,就能看清”为什么 Agent Memory ANN 不是 RAG 的延伸”:
Stage 1 Stage 2 Stage 3 Stage 4 Stage 5
静态 动态批量 RAG 功能 Agent 系统级 Agent
单次检索 Memory Memory ANN
↓
召回 ⇄ 召回 ⇄ 召回 ⇄ ┌── 记什么 ──┐ ┌── 多 agent ──┐
延迟 延迟 ⇄ 延迟 ⇄ │ │ │ │
rebuild LLM 流水线 │ 应用层 │ │ 系统层 │
代价 │ 方法论 │ │ 优化 │
│ │ │ │
└── 怎么忘 ──┘ └── 异构硬件 ──┘
↑
Pancake 在这
🧠 关键洞察:Stage 4 把 Agent Memory 从”什么”和”怎么用”角度做透了,但有意无意回避了”在每秒 100 次更新下系统性能怎么样”。Pancake 是第一个把性能放回中心的 agent memory 系统。
⭐ 本模块的研究问题:Stage 5 是不是已经把性能问题解决了?还是只解决了一部分?哪些还是 open question?——第 9 章会给一份研究方法论级别的回答。
📖 章节导览
整个模块 10 章,从领域全景到 Pancake 三章精读到方法论,层层深入:
| 章 | 主题 | 核心问题 | 类型 |
|---|---|---|---|
| 1 | 领域全景与演进史 | 16 年时间轴 + 5 个 stage 的核心矛盾迁移 | 概念破题 |
| 2 | 静态 ANN 技术回顾 | IVF / HNSW / PQ / Vamana / OPQ 各吃什么饭 | 技术对比 |
| 3 | 动态 ANN 工程谱系 | SPFresh / FreshDiskANN / Quake / LSM-VEC 横向对比 | 技术对比 |
| 4 | Agent Memory 系统总览 | Mem-GPT / A-MEM / MIRIX / MemOS / AgeMem 功能矩阵 | 框架综述 |
| 5 | Pancake 精读 1:单 Agent 多级缓存 + FSM 模式建模 ⭐ | scattered cluster / locality / 三级 cache / FSM 在线构造 | 论文精读 |
| 6 | Pancake 精读 2:多 Agent 混合图索引 ⭐ | hybrid graph / agent profile / portal node | 论文精读 |
| 7 | Pancake 精读 3:GPU-CPU 协同动态索引 ⭐ | hotspot caching / insertion buffer / async expansion | 论文精读 |
| 8 | 分布式多 Agent 记忆与一致性 | d-HNSW / SHINE / CoTra / SPIRE / Token Coherence | 前沿综述 |
| 9 | 开放问题与研究方法论 ⭐ | 6 大未解问题 + workload profiling + benchmark + 复现性 | 方法论原创 |
| 10 | 端到端实战:构建研究型 Agent Memory ANN 原型 | 把 Pancake 三件套 + 索引级生命周期落到 mini 系统 | 端到端实战 |
⭐ 标记的是必读章:第 5/6/7 是 Pancake 精读三章(这个模块的压舱石),第 9 是研究方法论(其他教程不会有的)。
🚧 六大未解问题速查
第 9 章会展开,这里先列清单。如果你是研究者,这 6 个问题里任何一个做透都能发论文:
| # | 未解问题 | 为什么是 open | 已有部分尝试 |
|---|---|---|---|
| 1 | 索引级生命周期管理 | 现有遗忘都在 app 层做,不减少 ANN 搜索代价 | AgeMem (app)、SimpleMem (app)、本模块 Sieve 草案 |
| 2 | 多 agent 一致性 | 共享记忆并发修改的语义没定义 | Token Coherence (artifact 层)、CompArch vision paper |
| 3 | 异构存储分层 | DRAM / CXL / SSD 在 agent workload 下的最优放置策略 | Milvus tiered (generic)、Soar (OSDI 2025) |
| 4 | 学习型 agent 索引 | Pancake 用启发式 FSM,能否换成神经网络 | GATE / SOAR (generic),无 agent-specific 工作 |
| 5 | LLM-Memory 联合调度 | LLM 推理的 GPU 气泡能否塞 ANN 搜索 | RAGCache (静态 RAG)、HERMES (stage-level) |
| 6 | 标准化 benchmark | Pancake 用自造 workload,无统一对比 | MemBench / MemoryAgentBench 仅评应用层 |
🌟 结论:Stage 5 解决了三件事——单 agent 局部性、多 agent coarse search、GPU-CPU 协同;但生命周期、一致性、异构存储、benchmark 这四件事都还是开荒地。
🧭 与其它模块的关系
模块五 模块十六 模块十九
Agent Memory 分离式协同 实证审计与负结果
(上层语义) (硬件视角) (评测视角)
│ │ │
└────────┐ ┌─────┴─────┐ ┌────────┘
▼ ▼ ▼ ▼
┌──────────────────────────────────────┐
│ 本模块(二十二) │ ← 在三者交叉口
│ Agent Memory ANN 系统 │ 做单机 ANN 系统层
│ (从 IVF 到 Pancake 的演进 + │ 的工程谱系
│ 研究方法论) │
└──────────────────────────────────────┘
│
▼
┌──────────────────┐
│ 模块二十 │
│ 分离式内存事务 │ ← 一致性深挖
└──────────────────┘
| 模块 | 关注层 | 与本模块的关系 |
|---|---|---|
| 模块五 Agent Memory | 上层语义(Episodic / Semantic) | 本模块讲”这些语义记忆放进 ANN 索引后,搜得快不快、装得多不多” |
| 模块十六 分离式协同 | 硬件层(RDMA / CXL / UB) | 本模块讲单机系统层;它讲跨节点解耦层 |
| 模块十九 实证审计 | 评测视角(leaderboard 数字水分) | 本模块讲系统视角(吞吐、延迟、容量) |
| 模块二十 分离式内存事务 | 事务一致性 | 本模块第 8 章会引到它的多 agent 一致性讨论 |
⭐ 核心定位:模块五讲”是什么”、模块十六讲”放哪”、模块十九讲”评得准不准”——本模块讲”搜得快不快”。四个模块互补不重叠。
🚀 新人破局指南
研究 Agent 应用层,想了解底层 ANN 系统能给自己什么 ➜ 第 1、4 章看完就够,知道 Stage 4 和 Stage 5 在做什么
做向量数据库 / 检索系统,想转 Agent Memory 方向 ➜ 第 2、3 章是你的舒适区,重点看第 4-7 章理解 agent workload 的特殊性
做 LLM 推理优化,想把 memory 操作纳入调度 ➜ 第 7 章 Pancake GPU-CPU 协同 + 第 9 章未解问题第 5 条(LLM-Memory 联合调度)是你的腹地
做研究、想找 Agent Memory + ANN 方向的论文 idea ➜ 第 9 章六大未解问题 + 研究方法论是直接的弹药库
面试 Agent Infra / 大模型 Infra 高级岗 ➜ 第 1-3 章覆盖 80% 题目,第 5-7 章是论文精读加分项
📚 参考资料
核心论文(本模块腹地)
- Pancake: Hierarchical Memory System for Multi-Agent LLM Serving(Hu et al., 2026):arXiv 2602.21477 —— 本模块第 5/6/7 章三章精读对象,定义了 agent-aware ANN 的三大技术
- Quake: Adaptive Indexing for Vector Search(Mohoney et al., OSDI 2025):自适应分裂簇的动态 ANN 标杆
- SPFresh: Incremental In-Place Update for Billion-Scale Vector Search(Xu et al., SOSP 2023):流式插入 + 局部 rebalance 的工程化代表
静态 ANN 经典
- HNSW(Malkov & Yashunin, TPAMI 2018):图索引主流标准
- DiskANN(Subramanya et al., NeurIPS 2019):磁盘扩展奠基作
- IVF(Jegou et al., 2010):粗搜+精搜两阶段范式起源
动态 ANN 与分离式
- FreshDiskANN(Singh et al., NeurIPS 2021):流式插入版 DiskANN
- LSM-VEC(2025):arXiv 2505.17152 —— LSM-tree + 图索引
- d-HNSW(Liu et al., HotStorage 2025):arXiv 2505.11783 —— 第一篇 RDMA 解耦 HNSW
- SHINE(2025):arXiv 2507.17647 —— 可扩展 HNSW + 分离式内存
- CoTra(2025):arXiv 2507.06653 —— 协作式 RDMA 向量搜索
Agent Memory 应用层
- Mem-GPT(Packer et al., 2023):OS-style memory
- A-MEM(Xu et al., 2025):arXiv 2502.12110 —— Zettelkasten-style
- MIRIX(Wang & Chen, 2025):arXiv 2507.07957 —— 6 类记忆 + 多 agent 管理
- AgeMem(2026):arXiv 2601.01885 —— RL 学习记忆生命周期
- MemOS(2025):arXiv 2507.03724 —— Memory 当系统资源
- Token Coherence(2026):arXiv 2603.15183 —— MESI 协议适配多 agent
- Multi-Agent Memory: A Computer Architecture Perspective(2026):arXiv 2603.10062 —— vision paper
工业向量数据库
- Faiss:github.com/facebookresearch/faiss
- Milvus:milvus.io(2.6 引入 tiered storage)
- Weaviate、Qdrant、LanceDB:开源 VDB 三家