跳到主要内容
AIInfra学习路线

Agent Memory ANN 系统 学习路线

从静态向量库到 Agent 时代的多 Agent 动态 ANN 协同——把 IVF / HNSW / SPFresh / Quake / Pancake / d-HNSW 这条 16 年演进线讲透,配 Pancake 论文三章精读、6 大未解问题与研究方法论,回答「Agent Memory 在系统层为什么是个独立问题」

Agent Memory ANN 向量检索 IVF HNSW Pancake SPFresh Quake 动态向量数据库 多 Agent

如果说 模块五 把 Agent Memory 的上层语义(Episodic / Semantic / Procedural)讲透了、模块十六分离式硬件(RDMA / CXL / UB)和 Agent Memory 的协同讲透了——本模块要回答中间最硬的那段:当 Agent 真的去查记忆时,底下那套 ANN 索引到底发生了什么?为什么把一个静态 Faiss 库换成动态 agent 工作流,性能就崩塌?为什么多 Agent 共享记忆比单 Agent 难一个数量级?为什么 GPU 加速向量搜索这件事,在 LLM 推理同处一卡的场景下,套不上传统 GPU-Faiss 的方案?

我们以 Pancake (arXiv:2602.21477) 这篇 2026 年 2 月的工作为核心论文,把它精读到三章,再把它前后 16 年的演进线(IVF 2010 → Faiss → HNSW → DiskANN → SPFresh → Quake → Pancake → d-HNSW)拉直,最后用一章总结 6 大未解问题和研究方法论——给你一份可以直接拿来做研究的领域地图。

📑 目录


🌟 全景:Agent Memory ANN 是个什么独立问题

很多人以为”Agent Memory 不就是 RAG 的同义词嘛——把对话存进 Faiss、需要时搜出来”。这个看法在 2023 年还能成立,但 2024-2026 年这两年发生了三件事,让 Agent Memory 的 ANN 部分独立成一个研究方向

事实来源 / 数据
Memory 操作占总时长 82%+Pancake (2026) 在 Mem-GPT / A-MEM workload 下实测
千亿级向量库被搬上单机MS MARCO 8M passages 已成 baseline,工业界已测到 100M+ 单机
多 Agent 共享记忆变成常态MIRIX / Collaborative Memory / Token Coherence 三篇 2025-2026 工作

这些都不是 RAG 时代要面对的——RAG 是”一次检索 → 一次生成”,Agent Memory 是”每一步都在交替读写,跨 agent 共享,索引一直在变”。

🌟 关键判断RAG 的 ANN 假设(静态、批量、单租户)在 Agent Memory 里全部不成立——这是这个领域作为独立研究方向的底层逻辑。

🍎 直觉比喻

  • 静态 ANN(Faiss / HNSW) = 字典——印好之后查得飞快,但不能加新词
  • 动态 ANN(SPFresh / Quake) = 活页本——能加新词,但批量整理才稳
  • Agent Memory ANN(Pancake) = 一个正在被多人同时翻阅、同时往里塞便签的活页本——每次翻都得知道最新状态,每次塞都不能打断别人翻
  • 分离式 Agent ANN(d-HNSW) = 这个活页本被拆到不同房间,得跑着翻

本模块的腹地,就是从”字典”到”被多人塞便签的活页本”这一段曲线。


📜 16 年演进时间轴

2010 ─── IVF                              静态聚类索引,定义了"粗搜 + 精搜"两阶段范式

2018 ─── HNSW                             图索引登场,单查询毫秒级,工业事实标准
2019 ─── DiskANN / Vamana                 把图搬到磁盘,10× 容量
2020 ─── ScaNN / OPQ                      量化加速,召回-内存的新 Pareto

2021 ─── FreshDiskANN / SPANN             "动态 ANN"开始出现:流式插入 + 周期 rebuild
2023 ─── Mem-GPT                          OS-style memory,第一次把"long-term memory"做成 LLM 应用层概念
2023 ─── SPFresh                          流式插入 + 局部 rebalance,工程化标杆
   │     ↑↑↑ 此时仍是「批量周期更新」假设

2024 ─── A-MEM (Zettelkasten)             agent 记忆需要语义链接,不再只是向量
2025 ─── MIRIX (6 memory types)           多 agent + 多类型记忆 + 主动检索
2025 ─── AgeMem (RL lifecycle)            store/retrieve/update/summarize/discard 五种动作
2025 ─── MemOS                            把 Memory 当系统资源管理(MemCube 抽象)
2025 ─── SimpleMem                        语义压缩 + 意图感知检索
   │     ↑↑↑ Stage 4:功能优先,不关注「搜得快」

2025 ─── Quake (OSDI)                     自适应索引:按访问频率分裂簇
2025 ─── LSM-VEC                          LSM-tree + 图索引,盘上动态
2025 ─── d-HNSW (HotStorage)              RDMA 解耦的 HNSW
2025 ─── SHINE                            可扩展 HNSW + 分离式内存
2026 ─── Pancake ⭐                       FSM 模式建模 + 多 agent 混合图 + GPU-CPU 协同
2026 ─── Token Coherence                  MESI 协议适配多 agent LLM 同步
2026 ─── CoTra / SPIRE                    分布式 RDMA 向量搜索的最新尝试
   │     ↑↑↑ Stage 5:性能优先,把 agent workload 当一等公民

本模块定位Stage 5 的腹地——把这条线从 IVF 一路讲到 Pancake,让你拿到完整的工程谱系


⚙️ 核心矛盾迁移图

每个 stage 的 ANN 系统都在解一个核心矛盾。把它们排到一起,就能看清”为什么 Agent Memory ANN 不是 RAG 的延伸”:

Stage 1   Stage 2     Stage 3     Stage 4         Stage 5
静态      动态批量    RAG         功能 Agent      系统级 Agent
                     单次检索    Memory          Memory ANN

召回 ⇄    召回 ⇄      召回 ⇄     ┌── 记什么 ──┐  ┌── 多 agent ──┐
延迟      延迟 ⇄      延迟 ⇄     │           │  │              │
          rebuild     LLM 流水线 │  应用层     │  │  系统层       │
          代价                   │  方法论    │  │  优化         │
                                 │           │  │              │
                                 └── 怎么忘 ──┘  └── 异构硬件 ──┘

                                                   Pancake 在这

🧠 关键洞察Stage 4 把 Agent Memory 从”什么”和”怎么用”角度做透了,但有意无意回避了”在每秒 100 次更新下系统性能怎么样”。Pancake 是第一个把性能放回中心的 agent memory 系统。

本模块的研究问题Stage 5 是不是已经把性能问题解决了?还是只解决了一部分?哪些还是 open question?——第 9 章会给一份研究方法论级别的回答。


📖 章节导览

整个模块 10 章,从领域全景到 Pancake 三章精读到方法论,层层深入:

主题核心问题类型
1领域全景与演进史16 年时间轴 + 5 个 stage 的核心矛盾迁移概念破题
2静态 ANN 技术回顾IVF / HNSW / PQ / Vamana / OPQ 各吃什么饭技术对比
3动态 ANN 工程谱系SPFresh / FreshDiskANN / Quake / LSM-VEC 横向对比技术对比
4Agent Memory 系统总览Mem-GPT / A-MEM / MIRIX / MemOS / AgeMem 功能矩阵框架综述
5Pancake 精读 1:单 Agent 多级缓存 + FSM 模式建模 ⭐scattered cluster / locality / 三级 cache / FSM 在线构造论文精读
6Pancake 精读 2:多 Agent 混合图索引 ⭐hybrid graph / agent profile / portal node论文精读
7Pancake 精读 3:GPU-CPU 协同动态索引 ⭐hotspot caching / insertion buffer / async expansion论文精读
8分布式多 Agent 记忆与一致性d-HNSW / SHINE / CoTra / SPIRE / Token Coherence前沿综述
9开放问题与研究方法论6 大未解问题 + workload profiling + benchmark + 复现性方法论原创
10端到端实战:构建研究型 Agent Memory ANN 原型把 Pancake 三件套 + 索引级生命周期落到 mini 系统端到端实战

⭐ 标记的是必读章:第 5/6/7 是 Pancake 精读三章(这个模块的压舱石),第 9 是研究方法论(其他教程不会有的)。


🚧 六大未解问题速查

第 9 章会展开,这里先列清单。如果你是研究者,这 6 个问题里任何一个做透都能发论文

#未解问题为什么是 open已有部分尝试
1索引级生命周期管理现有遗忘都在 app 层做,不减少 ANN 搜索代价AgeMem (app)、SimpleMem (app)、本模块 Sieve 草案
2多 agent 一致性共享记忆并发修改的语义没定义Token Coherence (artifact 层)、CompArch vision paper
3异构存储分层DRAM / CXL / SSD 在 agent workload 下的最优放置策略Milvus tiered (generic)、Soar (OSDI 2025)
4学习型 agent 索引Pancake 用启发式 FSM,能否换成神经网络GATE / SOAR (generic),无 agent-specific 工作
5LLM-Memory 联合调度LLM 推理的 GPU 气泡能否塞 ANN 搜索RAGCache (静态 RAG)、HERMES (stage-level)
6标准化 benchmarkPancake 用自造 workload,无统一对比MemBench / MemoryAgentBench 仅评应用层

🌟 结论Stage 5 解决了三件事——单 agent 局部性、多 agent coarse search、GPU-CPU 协同;但生命周期、一致性、异构存储、benchmark 这四件事都还是开荒地。


🧭 与其它模块的关系

            模块五                    模块十六                  模块十九
         Agent Memory             分离式协同              实证审计与负结果
         (上层语义)                (硬件视角)             (评测视角)
              │                        │                        │
              └────────┐         ┌─────┴─────┐         ┌────────┘
                       ▼         ▼           ▼         ▼
                   ┌──────────────────────────────────────┐
                   │           本模块(二十二)              │ ← 在三者交叉口
                   │   Agent Memory ANN 系统                │   做单机 ANN 系统层
                   │   (从 IVF 到 Pancake 的演进 +          │   的工程谱系
                   │    研究方法论)                          │
                   └──────────────────────────────────────┘


                              ┌──────────────────┐
                              │  模块二十         │
                              │  分离式内存事务   │  ← 一致性深挖
                              └──────────────────┘
模块关注层与本模块的关系
模块五 Agent Memory上层语义(Episodic / Semantic)本模块讲”这些语义记忆放进 ANN 索引后,搜得快不快、装得多不多”
模块十六 分离式协同硬件层(RDMA / CXL / UB)本模块讲单机系统层;它讲跨节点解耦层
模块十九 实证审计评测视角(leaderboard 数字水分)本模块讲系统视角(吞吐、延迟、容量)
模块二十 分离式内存事务事务一致性本模块第 8 章会引到它的多 agent 一致性讨论

核心定位模块五讲”是什么”、模块十六讲”放哪”、模块十九讲”评得准不准”——本模块讲”搜得快不快”。四个模块互补不重叠。


🚀 新人破局指南

研究 Agent 应用层,想了解底层 ANN 系统能给自己什么 ➜ 第 1、4 章看完就够,知道 Stage 4 和 Stage 5 在做什么

做向量数据库 / 检索系统,想转 Agent Memory 方向 ➜ 第 2、3 章是你的舒适区,重点看第 4-7 章理解 agent workload 的特殊性

做 LLM 推理优化,想把 memory 操作纳入调度 ➜ 第 7 章 Pancake GPU-CPU 协同 + 第 9 章未解问题第 5 条(LLM-Memory 联合调度)是你的腹地

做研究、想找 Agent Memory + ANN 方向的论文 idea ➜ 第 9 章六大未解问题 + 研究方法论是直接的弹药库

面试 Agent Infra / 大模型 Infra 高级岗 ➜ 第 1-3 章覆盖 80% 题目,第 5-7 章是论文精读加分项


📚 参考资料

核心论文(本模块腹地)

  • Pancake: Hierarchical Memory System for Multi-Agent LLM Serving(Hu et al., 2026):arXiv 2602.21477 —— 本模块第 5/6/7 章三章精读对象,定义了 agent-aware ANN 的三大技术
  • Quake: Adaptive Indexing for Vector Search(Mohoney et al., OSDI 2025):自适应分裂簇的动态 ANN 标杆
  • SPFresh: Incremental In-Place Update for Billion-Scale Vector Search(Xu et al., SOSP 2023):流式插入 + 局部 rebalance 的工程化代表

静态 ANN 经典

  • HNSW(Malkov & Yashunin, TPAMI 2018):图索引主流标准
  • DiskANN(Subramanya et al., NeurIPS 2019):磁盘扩展奠基作
  • IVF(Jegou et al., 2010):粗搜+精搜两阶段范式起源

动态 ANN 与分离式

  • FreshDiskANN(Singh et al., NeurIPS 2021):流式插入版 DiskANN
  • LSM-VEC(2025):arXiv 2505.17152 —— LSM-tree + 图索引
  • d-HNSW(Liu et al., HotStorage 2025):arXiv 2505.11783 —— 第一篇 RDMA 解耦 HNSW
  • SHINE(2025):arXiv 2507.17647 —— 可扩展 HNSW + 分离式内存
  • CoTra(2025):arXiv 2507.06653 —— 协作式 RDMA 向量搜索

Agent Memory 应用层

  • Mem-GPT(Packer et al., 2023):OS-style memory
  • A-MEM(Xu et al., 2025):arXiv 2502.12110 —— Zettelkasten-style
  • MIRIX(Wang & Chen, 2025):arXiv 2507.07957 —— 6 类记忆 + 多 agent 管理
  • AgeMem(2026):arXiv 2601.01885 —— RL 学习记忆生命周期
  • MemOS(2025):arXiv 2507.03724 —— Memory 当系统资源
  • Token Coherence(2026):arXiv 2603.15183 —— MESI 协议适配多 agent
  • Multi-Agent Memory: A Computer Architecture Perspective(2026):arXiv 2603.10062 —— vision paper

工业向量数据库

本系列其它模块