跳到主要内容
Agent Memory 论文演进与综述精读

第2章:Survey 级精读——4 篇 meta-work 逐篇拆 ⭐

CoALA(Cognitive Architectures for Language Agents)、MemOS(Memory OS for AI System)、Memory Survey 2025、Anatomy of Agentic Memory 四篇 meta-work 逐篇精读:每篇含贡献、taxonomy 框架、与其他 survey 的差异、给读者的最大 takeaway;读完这一章,整个 Agent Memory 赛道的「地图」和「术语词典」全部到手

survey CoALA MemOS Anatomy of Agentic Memory Memory Survey taxonomy

绝大多数新人犯的最大错误是跳过 survey 直接读 SOTA 论文——结果每篇 SOTA 都说自己”对比 X 是 Y 的”,但你根本不知道 X 是谁、Y 是谁、它们在地图上的位置。Survey 是地图,SOTA 是地标。本章用 4 篇 meta-work 给你一张完整的 Agent Memory 地图:CoALA 给最早的 agent 架构 taxonomy;MemOS 给”Memory OS”视角的最新综述;Memory Survey 2025 给 G1-G3 系统化分类;Anatomy of Agentic Memory 给评测局限的 empirical analysis。读完这章,整条赛道的”术语词典”和”问题域 / 方法域”双维度地图全部到手——后续 40+ 篇 SOTA 精读都能定位。

📑 目录


1. 为什么 survey 必须先读

1.1 Survey vs SOTA 论文的信息密度对比

维度SurveySOTA 论文
描述细节浅(每系统 1 段)深(一个系统 8 页)
时间跨度长(覆盖 3-5 年)短(当下贡献)
Taxonomy必有罕见(没人愿意被分类)
跨系统对比必有选择性(挑能赢的)
新人吸收效率极高中等

🍎 直觉:Survey 是 100 篇论文的”压缩包”——你花 4 小时读完,等于花 100 小时看完原 SOTA 的 60% 信息密度。性价比 25:1

1.2 4 篇 survey 的角色分工

Survey角色谁应该重点读
CoALA”Agent 是什么、Memory 是其子模块” 的 framework所有 Memory 新人
MemOS”Memory 作为 OS”的最新综述(2025-2026)准备做 Memory 系统设计的人
Memory Survey 2025G1-G3 全谱系统化分类PhD 准备选题的人
Anatomy of Agentic Memory评测局限的 empirical analysis准备审论文 / 跑实验的人

🌟 建议读法:4 篇按 CoALA → MemOS → Memory Survey → Anatomy 顺序读。第一篇定义”是什么”,第二篇给最新地图,第三篇填细节,第四篇给批判视角。


2. CoALA:Cognitive Architectures for Language Agents

2.1 基本信息

  • 作者:Sumers, Yao, Narasimhan, Griffiths (Princeton)
  • 时间:2023.09
  • 类型:framework / taxonomy paper
  • arXiv:2309.02427

2.2 一句话动机

“把 LLM agent 拆成 cognitive architecture(认知架构):working memory + long-term memory + reasoning + grounding——为后续所有 agent 架构提供 vocabulary。“

2.3 核心 taxonomy

CoALA 把 LLM agent 拆成 4 个模块(这套词汇被 G3 时代的所有论文沿用):

┌─────────────────────────────────────────────────┐
│                  LLM Agent                       │
│                                                  │
│  ┌──────────────┐    ┌──────────────────────┐  │
│  │  Working     │    │   Long-term Memory   │  │
│  │  Memory      │←──→│  - Episodic          │  │
│  │  (in-context)│    │  - Semantic          │  │
│  │              │    │  - Procedural        │  │
│  └──────┬───────┘    └──────────────────────┘  │
│         │                                        │
│         ▼                                        │
│  ┌──────────────┐    ┌──────────────────────┐  │
│  │  Reasoning   │    │   Grounding          │  │
│  │  (LLM)       │    │  (tool / env / human)│  │
│  └──────────────┘    └──────────────────────┘  │
└─────────────────────────────────────────────────┘

4 类 Long-term Memory

类型类比工业例子
Working Memory工作记忆(认知科学)当前对话 context
Episodic海马体的”事件""用户上次抱怨了发货慢”
Semantic大脑皮层的”知识""用户偏好咖啡不加糖”
Procedural小脑的”运动模式""处理退款的标准 SOP”

2.4 对后续工作的影响

🌟 CoALA 提出的 4 类 Memory 几乎成为 G3 所有论文的默认词汇

  • MemGPT 的”core memory + archival memory”映射到 working + episodic
  • Mem0 的”facts + episodes + preferences”是 semantic + episodic + procedural 的实现
  • MemoryOS 的 short / mid / long-term 是这套词汇的 OS 化重命名

2.5 批评

  • CoALA 给的是词汇,不是实现——很多 G3 论文借用词汇但实际没分这 4 类
  • “Procedural memory”在 LLM agent 里实际很罕见,多数系统不实现
  • 没有讨论 write trigger / forgetting / consolidation 的细节

2.6 30 秒 takeaway

Agent 的 4 模块(Working / Long-term / Reasoning / Grounding)+ Long-term 的 4 类(Working / Episodic / Semantic / Procedural)。这套词汇必须熟到说梦话能背出来——后续所有论文都用它


3. MemOS:Memory OS for AI System

3.1 基本信息

  • 作者:Li et al.(多机构联合)
  • 时间:2025.07
  • 类型:survey + framework paper
  • arXiv:2507.03724

3.2 一句话动机

“把 AI 系统的 memory 视为 OS:有 process(agent 任务)、memory hierarchy(多层缓存)、scheduler(写决策)、garbage collection(forgetting);用 OS 抽象统一所有 G2/G3 系统。“

3.3 核心 taxonomy

MemOS 给 G3 时代提出”4 层 hierarchy”:

┌─────────────────────────────────────┐
│  L0: Working Set (in-context)       │  ← 上下文窗口
├─────────────────────────────────────┤
│  L1: Hot Cache (近期对话 / 高频)    │  ← 短期记忆
├─────────────────────────────────────┤
│  L2: Warm Storage (持久化)          │  ← 长期记忆主体
├─────────────────────────────────────┤
│  L3: Cold Archive (冷存储 / 归档)   │  ← 极少访问
└─────────────────────────────────────┘

4 个 OS 类比组件

组件OS 类比Memory 中的角色
Process进程当前 agent 任务(含多轮对话)
Scheduler调度器写决策(何时把 L0 提升到 L1)
Eviction淘汰策略forgetting(L1 → L2 → L3)
Page Fault缺页retrieval miss / 触发深度搜索

3.4 对后续工作的影响

  • LightMem / MemoryOS 的”短期/中期/长期”三层直接照搬这个 hierarchy
  • 一批 2025-2026 系统把 OS 隐喻发扬光大(“memory paging”、“memory cache lines”)
  • 给后续工作的 vocabulary:当你说 “L1 hot cache hit rate” 时,所有 G3 reader 立刻明白

3.5 批评

  • OS 类比强行套到 Memory 上有限制:OS 内存管理是硬件物理约束,Memory 是软件设计选择
  • 4 层 hierarchy 的 hyperparameter(L1/L2/L3 各自大小)跨 dataset 不可移植
  • 评测部分薄弱,没有给跨系统的 paired benchmark

3.6 30 秒 takeaway

Memory = OS 视角的 4 层 hierarchy + 4 个调度组件。MemOS 给 G3 论文提供了”4 层 + scheduler + eviction”的标准 vocabulary,但实际系统是否真用 4 层取决于具体设计。


4. Memory Survey 2025:G1-G3 系统化梳理

4.1 基本信息

  • 作者:Zhang et al.(多机构联合)
  • 时间:2025 年中(持续 update)
  • 类型:comprehensive survey
  • 状态:arXiv preprint,已更新到 v3+

4.2 一句话动机

“把 2020-2025 所有 Long-term Memory for LLM 论文按统一框架综述:从 vector DB 早期到 G3 agentic 系统,给每个子方向最完整的 reading list。“

4.3 核心 taxonomy

Memory Survey 2025 给的是 3 轴分类(比 MemOS 多 1 维):

取值
Memory Type(沿用 CoALA)working / episodic / semantic / procedural
Storage Backendvector / graph / KV / hybrid
Write Strategypassive (RAG-style) / active (LLM-driven) / hybrid

🌟 3 轴 = 4×4×3 = 48 cells,survey 里给每个 cell 至少 2 个代表系统。

4.4 对后续工作的影响

  • 提供最完整的”代表系统 vs cell”映射,是写自己论文 §2 Related Work 的最好素材
  • 给 100+ 篇论文的 BibTeX 已整理好
  • 给”我的论文落在哪个 cell”提供清晰参考

4.5 批评

  • Comprehensive 但浅——每系统平均只有 1 段
  • Taxonomy 维度过多导致 cell 数过多,部分 cell 只有 1 个系统(不构成”分类”)
  • 评测方法论部分薄弱(这正是 Anatomy of Agentic Memory 的切入点)

4.6 30 秒 takeaway

3 轴(Type × Storage × Write)= 48 cells 的 G1-G3 全谱系。Memory Survey 2025 是 BibTeX 大全 + reading list,新人收藏即用


5. Anatomy of Agentic Memory:评测局限的 empirical analysis

5.1 基本信息

  • 作者:Anonymous(投稿中)
  • 时间:2026.02
  • 类型:empirical critique survey
  • arXiv:2602.19320

5.2 一句话动机

“我们不再给 taxonomy;我们给数据:在统一 pipeline 上跑 G3 5-8 个系统,揭示绝对 acc 30 pp 差距大多数来自 retrieval / judge 不可比,而非 memory design 本身。“

5.3 核心发现

发现数据意义
Retrieval 强度差异解释 ~20 ppLongMemEval 对照实验同 Yuan’26 一致
Judge 实现差异解释 ~5 pp自家 judge vs official judge论文里 5 pp = 关键差距
Oracle 路由偷分 5-15 pp关掉 question_type 路由的对照多数 G3 隐含使用
真实 paired Δ ≤ 3 pp控制混杂后 G3 vs zero-build”提升 30 pp”是错觉

5.4 对后续工作的影响

  • 方法论冲击:让 reviewer 默认要求 paired + 公开 judge code
  • 给本模块作者论文(Cache Hits Don’t Save Agent Memory)提供直接的方法论先验
  • 推动 preregistration 在 NLP / Memory 子领域普及

5.5 批评

  • 只测了 5-8 个系统,不全(leaves out Memori、D-MEM 等)
  • 自己也只用 1 个 backbone
  • “20 pp / 5 pp / 5-15 pp”的分解依赖回归拟合,不是因果

5.6 30 秒 takeaway

G3 论文里的”提升 30 pp”,真实可比的 paired Δ 多数 ≤ 3 pp;剩下来自 retrieval + judge + oracle 三层不可比。这一篇 + Yuan’26 = 2026 年 Memory 论文审计的方法论基础


6. 4 篇 survey 的横向对比

维度CoALAMemOSMemory Survey 2025Anatomy of Agentic Memory
时间2023.092025.072025 持续 update2026.02
视角Cognitive ArchitectureOSTaxonomyEmpirical critique
贡献类型Framework / vocabularyFramework + surveyComprehensive reading list批评性 empirical
覆盖系统数~15~30~100~8(深度对比)
主张强度中(提供词汇)中(提供类比)弱(综合)强(批评)
是否包含 paired data部分
适合读的时机第 1 周第 2 周当 reference 用准备写论文前

🌟 核心:4 篇 survey 不是替代关系,是 complementary——CoALA 给词汇、MemOS 给地图、Memory Survey 给清单、Anatomy 给批评视角。4 篇都读、按顺序读


7. 用 survey 建立你自己的术语词典

读完 4 篇 survey,建议建立一份个人术语词典(推荐用 Notion / Obsidian):

7.1 术语词典模板

## 术语:Episodic Memory

- 定义(CoALA):海马体类比的事件记忆
- 系统例(Generative Agents):每天结束的 reflection 写入 episodes
- 系统例(A-Mem):作为 fact graph 节点的事件
- 我的理解:用一句生活化语言重述
- 易混淆:与 Semantic Memory 的边界?(episodic 是"某次发生",semantic 是"事实陈述")

7.2 必收的 20 个核心术语

按 CoALA / MemOS / Memory Survey / Anatomy 出现频率排:

术语来源
Working / Episodic / Semantic / Procedural MemoryCoALA
Write TriggerMemory Survey
Retrieval PolicyMemory Survey
ConsolidationCoALA + Memory Survey
Forgetting / EvictionMemOS
Hierarchy(L0-L3)MemOS
Paired ComparisonAnatomy
Oracle RoutingAnatomy
Information DensityAnatomy + 本模块作者论文
ReflectionGenerative Agents(实操术语)
Fact ExtractionMem0(实操术语)
Cache Hit Rate本模块作者论文
Paired Binary Accuracy模块十九 Ch4
McNemar / TOST模块十九 Ch4
Pre-registration模块十九 Ch4
Positive Control模块十九 Ch5
Optional Stopping模块十九 Ch4 / Ch7
Backbone Robustness模块十九 Ch6
Build Cost本模块作者论文
Mechanism Atlas本模块作者论文

🌟 建议:每读一篇 SOTA 论文前,先查这 20 个术语在该论文里的”实际定义”——你会发现 20% 的论文偏离 survey 标准用法。


✅ 自我检验清单

  • Survey 价值:能解释为什么”先读 4 篇 survey”比”先读 10 篇 SOTA”信息密度高
  • CoALA 4 类:能讲出 working / episodic / semantic / procedural 各 1 个 G3 系统例
  • MemOS 4 层:能讲清 L0-L3 hierarchy 和 4 个 OS 类比组件
  • Memory Survey 3 轴:能用 3 轴定位任意 1 个 SOTA 系统
  • Anatomy 4 发现:能讲清 retrieval / judge / oracle / paired 各自解释多少 pp 差距
  • 4 篇横向对比:能解释 CoALA vs MemOS vs Memory Survey vs Anatomy 各自的不可替代性
  • 20 术语:能 1 分钟内讲出 20 个核心术语中至少 15 个的定义
  • 个人词典:建立了至少 10 条自己的术语笔记

📚 参考资料

概念入门

  • 本路线第 1 章 论文地图 —— 配合本章使用
  • 模块五 Agent Memory ch1-2 —— CoALA 词汇的工程化落地讲解

关键论文(本章 4 篇主角)

  • CoALA(Sumers et al., 2023)arXiv 2309.02427 —— 4 模块 / 4 类 Memory 的元论文
  • MemOS(Li et al., 2025)arXiv 2507.03724 —— 4 层 OS hierarchy + scheduler + eviction
  • Memory Survey 2025(Zhang et al.)—— 3 轴 / 48 cell 全谱系(arXiv 持续 update)
  • Anatomy of Agentic Memory(Anonymous, 2026)arXiv 2602.19320 —— 批评性 empirical analysis

行业讨论

  • Notion / Obsidian 用户分享的 Agent Memory 术语词典模板 —— GitHub 搜索”agent memory glossary”
  • arXiv RSS 订阅 “agent memory” / “long-term memory LLM” —— 跟最新 survey 更新

框架文档(如适用)

  • Letta(原 MemGPT)GitHub —— CoALA 4 模块的工程化样本
  • Mem0 文档 —— “facts / episodes / preferences”是 CoALA 词汇的实际实现