🧭 Agent Memory ANN 系统 9 篇文章 · 9 个章节

Agent Memory ANN 系统

Agent Memory ANN 系统相关技术文档

章节目录

1 第1章：领域全景与演进史 —— 从 IVF 到 Pancake 的 16 年

ANN 索引技术从 2010 年的 IVF 到 2026 年的 Pancake 走过的五个 stage、每个 stage 的核心矛盾、为什么 Agent Memory ANN 是个独立研究方向、五大主流认知误区拆解，给读者一份能直接拿来做研究的领域地图

2 第2章：静态 ANN 技术回顾 —— IVF / HNSW / 量化 / 磁盘图四条主干

把 ANN 索引最经典的四条技术主干讲透：IVF 的粗搜+精搜两阶段、PQ 到 RaBitQ 的量化谱系、HNSW 的分层小世界图、Vamana / DiskANN 的磁盘图扩展。每条主干给出算法直觉、关键参数、Faiss 调用示例，最后用一张矩阵表说清「什么场景选什么」，并把静态 ANN 的四条根本假设拆穿——这是后续动态 ANN / Agent Memory ANN 章节的地基。

3 第3章：动态 ANN 工程谱系 —— SPFresh / Quake / OdinANN 横向对比

把 2021-2026 这 5 年动态 ANN 的工程谱系拉直：FreshDiskANN 的 out-of-place 缓冲、SPFresh 的 in-place LIRE 重平衡、OdinANN 的 direct insert、PipeANN 的 BFS-SSD 对齐、Quake 的自适应分裂簇、LSM-VEC 的 LSM-tree 化、MN-RU 的删除优化——每个系统讲清它解决的具体痛点和留下的开放问题，最后用一节讲「剪枝悖论」和「recall 悬崖」这两个所有动态 ANN 都会遇到但很少有人讲清楚的现象。

4 第4章：Agent Memory 系统总览 —— Mem-GPT / A-MEM / MIRIX / MemOS / AgeMem 功能矩阵

把 2023-2026 这条 Agent Memory 应用层演进线讲透：Mem-GPT 的 OS-style memory、A-MEM 的 Zettelkasten 语义链接、MIRIX 的 6 类记忆 + 多 Agent、MemOS 的 MemCube 抽象、AgeMem 的 RL lifecycle、SimpleMem 的语义压缩。给出一张能力矩阵和选型决策树，最后讲清楚这些 Stage 4 系统的「功能优先」哲学为什么留下了「系统层性能」这个空洞——这正是 Pancake 等 Stage 5 工作的 motivation。

5 第5章：Pancake 精读 1 —— 单 Agent 多级缓存 + FSM 模式建模

Pancake (UCSD, 2026.02) 三章精读的第一章。把这篇 2026 年 Agent Memory ANN 最重要论文的第一个核心贡献——单 Agent 场景下的多级缓存索引 + FSM 模式建模——讲到能直接写代码的程度。本章覆盖：scattered cluster problem 的实证、intra-agent locality 与 step-wise locality 双维度发现、L0/L1/L2 三级缓存结构、FSM 形式化与在线构造、基于模式的 prefetch 与 early termination、与 SPFresh/Quake 的关键差异化。这是 Stage 5 系统层 ANN 的腹地起点。

6 第6章：Pancake 精读 2 —— 多 Agent 混合图索引与 Agent Profile

Pancake 精读三章的第二章。把这篇论文最具创新性的"多 Agent 索引管理"部分讲透：多 Agent 场景下 coarse search 占比飙到 80%+ 的实证、不同 agent 在同一 cluster 内访问模式的非均匀性、把多个 agent 的 coarse index 连成"混合图"的设计、用 ef_connect 概率自适应跨图连接密度、用 Agent Profile per-cluster table 追踪每个 agent 的 fine-grained 访问偏好——以及为什么这种"多 Agent ANN co-design"是 Mem-GPT / MIRIX 等应用层框架完全缺失的系统层创新。

7 第7章：Pancake 精读 3 —— GPU-CPU 协同动态索引

Pancake 精读三章的最后一章。把这篇论文最难的工程模块——GPU-CPU 异构协同——拆透：GPU vs CPU 在 ANN 上的具体性能拐点（cluster size 512 是分水岭）、Pancake 为什么不能用经典 GPU-resident 方案（大模型权重 + KV cache 占用 GPU 内存）、四件套设计（hotspot-aware caching / CPU insertion buffer / async consistency management / on-GPU cluster splitting）、为什么这套设计在 LLM serving 共址场景下是必须的。最后给一份多线程实现的代码骨架和完整评测数据复盘。

8 第8章：分布式多 Agent 记忆与一致性 —— d-HNSW / SHINE / CoTra / SPIRE / 鲲鹏 UB / Token Coherence

把 2025-2026 年分布式 / 分离式 Agent Memory ANN 这条最前沿的研究线讲清楚：从单机撞墙到分片方案的算力浪费、d-HNSW 在 RDMA 上的四大优化、SHINE 的可扩展协调、CoTra 的聚类感知路由、SPIRE 的精度保持索引、华为鲲鹏 UB 内存池的全局图方案、Token Coherence 把 MESI 协议搬到 Agent 同步。每个系统讲清它解决的具体痛点和留下的开放问题，最后用一节讲多 Agent 一致性这个还没收敛的研究问题。

9 第9章：开放问题与研究方法论 —— 6 大未解问题展开 + 给研究者的工具箱

本模块的方法论章节。把前 8 章铺陈的 6 大未解问题（索引级生命周期、多 agent 一致性、异构存储分层、学习型 agent 索引、LLM-Memory 联合调度、标准化 benchmark）展开成可以直接做的论文 idea；并给一份做这块研究的方法论：怎么挑题、怎么 workload profiling、怎么设计 benchmark、怎么保证复现、怎么避开五个常见 pitfall。最后用'剪枝悖论 + Recall 悬崖'作为方法论范例完整复盘——从观察到 publishable claim 的完整路径。

Agent Memory ANN 系统

章节目录

搜索