第2章：Survey 级精读——4 篇 meta-work 逐篇拆 ⭐

CoALA（Cognitive Architectures for Language Agents）、MemOS（Memory OS for AI System）、Memory Survey 2025、Anatomy of Agentic Memory 四篇 meta-work 逐篇精读：每篇含贡献、taxonomy 框架、与其他 survey 的差异、给读者的最大 takeaway；读完这一章，整个 Agent Memory 赛道的「地图」和「术语词典」全部到手

survey CoALA MemOS Anatomy of Agentic Memory Memory Survey taxonomy

绝大多数新人犯的最大错误是跳过 survey 直接读 SOTA 论文——结果每篇 SOTA 都说自己”对比 X 是 Y 的”，但你根本不知道 X 是谁、Y 是谁、它们在地图上的位置。Survey 是地图，SOTA 是地标。本章用 4 篇 meta-work 给你一张完整的 Agent Memory 地图：CoALA 给最早的 agent 架构 taxonomy；MemOS 给”Memory OS”视角的最新综述；Memory Survey 2025 给 G1-G3 系统化分类；Anatomy of Agentic Memory 给评测局限的 empirical analysis。读完这章，整条赛道的”术语词典”和”问题域 / 方法域”双维度地图全部到手——后续 40+ 篇 SOTA 精读都能定位。

📑 目录

1. 为什么 survey 必须先读
2. CoALA：Cognitive Architectures for Language Agents
3. MemOS：Memory OS for AI System
4. Memory Survey 2025：G1-G3 系统化梳理
5. Anatomy of Agentic Memory：评测局限的 empirical analysis
6. 4 篇 survey 的横向对比
7. 用 survey 建立你自己的术语词典
✅ 自我检验清单
📚 参考资料

1. 为什么 survey 必须先读

1.1 Survey vs SOTA 论文的信息密度对比

维度	Survey	SOTA 论文
描述细节	浅（每系统 1 段）	深（一个系统 8 页）
时间跨度	长（覆盖 3-5 年）	短（当下贡献）
Taxonomy	必有	罕见（没人愿意被分类）
跨系统对比	必有	选择性（挑能赢的）
新人吸收效率	极高	中等

🍎 直觉：Survey 是 100 篇论文的”压缩包”——你花 4 小时读完，等于花 100 小时看完原 SOTA 的 60% 信息密度。性价比 25:1。

1.2 4 篇 survey 的角色分工

Survey	角色	谁应该重点读
CoALA	”Agent 是什么、Memory 是其子模块” 的 framework	所有 Memory 新人
MemOS	”Memory 作为 OS”的最新综述（2025-2026）	准备做 Memory 系统设计的人
Memory Survey 2025	G1-G3 全谱系统化分类	PhD 准备选题的人
Anatomy of Agentic Memory	评测局限的 empirical analysis	准备审论文 / 跑实验的人

🌟 建议读法：4 篇按 CoALA → MemOS → Memory Survey → Anatomy 顺序读。第一篇定义”是什么”，第二篇给最新地图，第三篇填细节，第四篇给批判视角。

2. CoALA：Cognitive Architectures for Language Agents

2.1 基本信息

作者：Sumers, Yao, Narasimhan, Griffiths (Princeton)
时间：2023.09
类型：framework / taxonomy paper
arXiv：2309.02427

2.2 一句话动机

“把 LLM agent 拆成 cognitive architecture（认知架构）：working memory + long-term memory + reasoning + grounding——为后续所有 agent 架构提供 vocabulary。“

2.3 核心 taxonomy

CoALA 把 LLM agent 拆成 4 个模块（这套词汇被 G3 时代的所有论文沿用）：

┌─────────────────────────────────────────────────┐
│                  LLM Agent                       │
│                                                  │
│  ┌──────────────┐    ┌──────────────────────┐  │
│  │  Working     │    │   Long-term Memory   │  │
│  │  Memory      │←──→│  - Episodic          │  │
│  │  (in-context)│    │  - Semantic          │  │
│  │              │    │  - Procedural        │  │
│  └──────┬───────┘    └──────────────────────┘  │
│         │                                        │
│         ▼                                        │
│  ┌──────────────┐    ┌──────────────────────┐  │
│  │  Reasoning   │    │   Grounding          │  │
│  │  (LLM)       │    │  (tool / env / human)│  │
│  └──────────────┘    └──────────────────────┘  │
└─────────────────────────────────────────────────┘

4 类 Long-term Memory：

类型	类比	工业例子
Working Memory	工作记忆（认知科学）	当前对话 context
Episodic	海马体的”事件"	"用户上次抱怨了发货慢”
Semantic	大脑皮层的”知识"	"用户偏好咖啡不加糖”
Procedural	小脑的”运动模式"	"处理退款的标准 SOP”

2.4 对后续工作的影响

🌟 CoALA 提出的 4 类 Memory 几乎成为 G3 所有论文的默认词汇：

MemGPT 的”core memory + archival memory”映射到 working + episodic
Mem0 的”facts + episodes + preferences”是 semantic + episodic + procedural 的实现
MemoryOS 的 short / mid / long-term 是这套词汇的 OS 化重命名

2.5 批评

CoALA 给的是词汇，不是实现——很多 G3 论文借用词汇但实际没分这 4 类
“Procedural memory”在 LLM agent 里实际很罕见，多数系统不实现
没有讨论 write trigger / forgetting / consolidation 的细节

2.6 30 秒 takeaway

Agent 的 4 模块（Working / Long-term / Reasoning / Grounding）+ Long-term 的 4 类（Working / Episodic / Semantic / Procedural）。这套词汇必须熟到说梦话能背出来——后续所有论文都用它。

3. MemOS：Memory OS for AI System

3.1 基本信息

作者：Li et al.（多机构联合）
时间：2025.07
类型：survey + framework paper
arXiv：2507.03724

3.2 一句话动机

“把 AI 系统的 memory 视为 OS：有 process（agent 任务）、memory hierarchy（多层缓存）、scheduler（写决策）、garbage collection（forgetting）；用 OS 抽象统一所有 G2/G3 系统。“

3.3 核心 taxonomy

MemOS 给 G3 时代提出”4 层 hierarchy”：

┌─────────────────────────────────────┐
│  L0: Working Set (in-context)       │  ← 上下文窗口
├─────────────────────────────────────┤
│  L1: Hot Cache (近期对话 / 高频)    │  ← 短期记忆
├─────────────────────────────────────┤
│  L2: Warm Storage (持久化)          │  ← 长期记忆主体
├─────────────────────────────────────┤
│  L3: Cold Archive (冷存储 / 归档)   │  ← 极少访问
└─────────────────────────────────────┘

4 个 OS 类比组件：

组件	OS 类比	Memory 中的角色
Process	进程	当前 agent 任务（含多轮对话）
Scheduler	调度器	写决策（何时把 L0 提升到 L1）
Eviction	淘汰策略	forgetting（L1 → L2 → L3）
Page Fault	缺页	retrieval miss / 触发深度搜索

3.4 对后续工作的影响

LightMem / MemoryOS 的”短期/中期/长期”三层直接照搬这个 hierarchy
一批 2025-2026 系统把 OS 隐喻发扬光大（“memory paging”、“memory cache lines”）
给后续工作的 vocabulary：当你说 “L1 hot cache hit rate” 时，所有 G3 reader 立刻明白

3.5 批评

OS 类比强行套到 Memory 上有限制：OS 内存管理是硬件物理约束，Memory 是软件设计选择
4 层 hierarchy 的 hyperparameter（L1/L2/L3 各自大小）跨 dataset 不可移植
评测部分薄弱，没有给跨系统的 paired benchmark

3.6 30 秒 takeaway

Memory = OS 视角的 4 层 hierarchy + 4 个调度组件。MemOS 给 G3 论文提供了”4 层 + scheduler + eviction”的标准 vocabulary，但实际系统是否真用 4 层取决于具体设计。

4. Memory Survey 2025：G1-G3 系统化梳理

4.1 基本信息

作者：Zhang et al.（多机构联合）
时间：2025 年中（持续 update）
类型：comprehensive survey
状态：arXiv preprint，已更新到 v3+

4.2 一句话动机

“把 2020-2025 所有 Long-term Memory for LLM 论文按统一框架综述：从 vector DB 早期到 G3 agentic 系统，给每个子方向最完整的 reading list。“

4.3 核心 taxonomy

Memory Survey 2025 给的是 3 轴分类（比 MemOS 多 1 维）：

轴	取值
Memory Type（沿用 CoALA）	working / episodic / semantic / procedural
Storage Backend	vector / graph / KV / hybrid
Write Strategy	passive (RAG-style) / active (LLM-driven) / hybrid

🌟 3 轴 = 4×4×3 = 48 cells，survey 里给每个 cell 至少 2 个代表系统。

4.4 对后续工作的影响

提供最完整的”代表系统 vs cell”映射，是写自己论文 §2 Related Work 的最好素材
给 100+ 篇论文的 BibTeX 已整理好
给”我的论文落在哪个 cell”提供清晰参考

4.5 批评

Comprehensive 但浅——每系统平均只有 1 段
Taxonomy 维度过多导致 cell 数过多，部分 cell 只有 1 个系统（不构成”分类”）
评测方法论部分薄弱（这正是 Anatomy of Agentic Memory 的切入点）

4.6 30 秒 takeaway

3 轴（Type × Storage × Write）= 48 cells 的 G1-G3 全谱系。Memory Survey 2025 是 BibTeX 大全 + reading list，新人收藏即用。

5. Anatomy of Agentic Memory：评测局限的 empirical analysis

5.1 基本信息

作者：Anonymous（投稿中）
时间：2026.02
类型：empirical critique survey
arXiv：2602.19320

5.2 一句话动机

“我们不再给 taxonomy；我们给数据：在统一 pipeline 上跑 G3 5-8 个系统，揭示绝对 acc 30 pp 差距大多数来自 retrieval / judge 不可比，而非 memory design 本身。“

5.3 核心发现

发现	数据	意义
Retrieval 强度差异解释 ~20 pp	LongMemEval 对照实验	同 Yuan’26 一致
Judge 实现差异解释 ~5 pp	自家 judge vs official judge	论文里 5 pp = 关键差距
Oracle 路由偷分 5-15 pp	关掉 question_type 路由的对照	多数 G3 隐含使用
真实 paired Δ ≤ 3 pp	控制混杂后 G3 vs zero-build	”提升 30 pp”是错觉

5.4 对后续工作的影响

方法论冲击：让 reviewer 默认要求 paired + 公开 judge code
给本模块作者论文（Cache Hits Don’t Save Agent Memory）提供直接的方法论先验
推动 preregistration 在 NLP / Memory 子领域普及

5.5 批评

只测了 5-8 个系统，不全（leaves out Memori、D-MEM 等）
自己也只用 1 个 backbone
“20 pp / 5 pp / 5-15 pp”的分解依赖回归拟合，不是因果

5.6 30 秒 takeaway

G3 论文里的”提升 30 pp”，真实可比的 paired Δ 多数 ≤ 3 pp；剩下来自 retrieval + judge + oracle 三层不可比。这一篇 + Yuan’26 = 2026 年 Memory 论文审计的方法论基础。

6. 4 篇 survey 的横向对比

维度	CoALA	MemOS	Memory Survey 2025	Anatomy of Agentic Memory
时间	2023.09	2025.07	2025 持续 update	2026.02
视角	Cognitive Architecture	OS	Taxonomy	Empirical critique
贡献类型	Framework / vocabulary	Framework + survey	Comprehensive reading list	批评性 empirical
覆盖系统数	~15	~30	~100	~8（深度对比）
主张强度	中（提供词汇）	中（提供类比）	弱（综合）	强（批评）
是否包含 paired data	❌	部分	❌	✅
适合读的时机	第 1 周	第 2 周	当 reference 用	准备写论文前

🌟 核心：4 篇 survey 不是替代关系，是 complementary——CoALA 给词汇、MemOS 给地图、Memory Survey 给清单、Anatomy 给批评视角。4 篇都读、按顺序读。

7. 用 survey 建立你自己的术语词典

读完 4 篇 survey，建议建立一份个人术语词典（推荐用 Notion / Obsidian）：

7.1 术语词典模板

## 术语：Episodic Memory

- 定义（CoALA）：海马体类比的事件记忆
- 系统例（Generative Agents）：每天结束的 reflection 写入 episodes
- 系统例（A-Mem）：作为 fact graph 节点的事件
- 我的理解：用一句生活化语言重述
- 易混淆：与 Semantic Memory 的边界？（episodic 是"某次发生"，semantic 是"事实陈述"）

7.2 必收的 20 个核心术语

按 CoALA / MemOS / Memory Survey / Anatomy 出现频率排：

术语	来源
Working / Episodic / Semantic / Procedural Memory	CoALA
Write Trigger	Memory Survey
Retrieval Policy	Memory Survey
Consolidation	CoALA + Memory Survey
Forgetting / Eviction	MemOS
Hierarchy（L0-L3）	MemOS
Paired Comparison	Anatomy
Oracle Routing	Anatomy
Information Density	Anatomy + 本模块作者论文
Reflection	Generative Agents（实操术语）
Fact Extraction	Mem0（实操术语）
Cache Hit Rate	本模块作者论文
Paired Binary Accuracy	模块十九 Ch4
McNemar / TOST	模块十九 Ch4
Pre-registration	模块十九 Ch4
Positive Control	模块十九 Ch5
Optional Stopping	模块十九 Ch4 / Ch7
Backbone Robustness	模块十九 Ch6
Build Cost	本模块作者论文
Mechanism Atlas	本模块作者论文

🌟 建议：每读一篇 SOTA 论文前，先查这 20 个术语在该论文里的”实际定义”——你会发现 20% 的论文偏离 survey 标准用法。

✅ 自我检验清单

Survey 价值：能解释为什么”先读 4 篇 survey”比”先读 10 篇 SOTA”信息密度高
CoALA 4 类：能讲出 working / episodic / semantic / procedural 各 1 个 G3 系统例
MemOS 4 层：能讲清 L0-L3 hierarchy 和 4 个 OS 类比组件
Memory Survey 3 轴：能用 3 轴定位任意 1 个 SOTA 系统
Anatomy 4 发现：能讲清 retrieval / judge / oracle / paired 各自解释多少 pp 差距
4 篇横向对比：能解释 CoALA vs MemOS vs Memory Survey vs Anatomy 各自的不可替代性
20 术语：能 1 分钟内讲出 20 个核心术语中至少 15 个的定义
个人词典：建立了至少 10 条自己的术语笔记

📚 参考资料

概念入门

本路线第 1 章论文地图 —— 配合本章使用
模块五 Agent Memory ch1-2 —— CoALA 词汇的工程化落地讲解

关键论文（本章 4 篇主角）

CoALA（Sumers et al., 2023）：arXiv 2309.02427 —— 4 模块 / 4 类 Memory 的元论文
MemOS（Li et al., 2025）：arXiv 2507.03724 —— 4 层 OS hierarchy + scheduler + eviction
Memory Survey 2025（Zhang et al.）—— 3 轴 / 48 cell 全谱系（arXiv 持续 update）
Anatomy of Agentic Memory（Anonymous, 2026）：arXiv 2602.19320 —— 批评性 empirical analysis

行业讨论

Notion / Obsidian 用户分享的 Agent Memory 术语词典模板 —— GitHub 搜索”agent memory glossary”
arXiv RSS 订阅 “agent memory” / “long-term memory LLM” —— 跟最新 survey 更新

框架文档（如适用）

Letta（原 MemGPT）GitHub —— CoALA 4 模块的工程化样本
Mem0 文档 —— “facts / episodes / preferences”是 CoALA 词汇的实际实现

搜索