第2章:Survey 级精读——4 篇 meta-work 逐篇拆 ⭐
CoALA(Cognitive Architectures for Language Agents)、MemOS(Memory OS for AI System)、Memory Survey 2025、Anatomy of Agentic Memory 四篇 meta-work 逐篇精读:每篇含贡献、taxonomy 框架、与其他 survey 的差异、给读者的最大 takeaway;读完这一章,整个 Agent Memory 赛道的「地图」和「术语词典」全部到手
绝大多数新人犯的最大错误是跳过 survey 直接读 SOTA 论文——结果每篇 SOTA 都说自己”对比 X 是 Y 的”,但你根本不知道 X 是谁、Y 是谁、它们在地图上的位置。Survey 是地图,SOTA 是地标。本章用 4 篇 meta-work 给你一张完整的 Agent Memory 地图:CoALA 给最早的 agent 架构 taxonomy;MemOS 给”Memory OS”视角的最新综述;Memory Survey 2025 给 G1-G3 系统化分类;Anatomy of Agentic Memory 给评测局限的 empirical analysis。读完这章,整条赛道的”术语词典”和”问题域 / 方法域”双维度地图全部到手——后续 40+ 篇 SOTA 精读都能定位。
📑 目录
- 1. 为什么 survey 必须先读
- 2. CoALA:Cognitive Architectures for Language Agents
- 3. MemOS:Memory OS for AI System
- 4. Memory Survey 2025:G1-G3 系统化梳理
- 5. Anatomy of Agentic Memory:评测局限的 empirical analysis
- 6. 4 篇 survey 的横向对比
- 7. 用 survey 建立你自己的术语词典
- ✅ 自我检验清单
- 📚 参考资料
1. 为什么 survey 必须先读
1.1 Survey vs SOTA 论文的信息密度对比
| 维度 | Survey | SOTA 论文 |
|---|---|---|
| 描述细节 | 浅(每系统 1 段) | 深(一个系统 8 页) |
| 时间跨度 | 长(覆盖 3-5 年) | 短(当下贡献) |
| Taxonomy | 必有 | 罕见(没人愿意被分类) |
| 跨系统对比 | 必有 | 选择性(挑能赢的) |
| 新人吸收效率 | 极高 | 中等 |
🍎 直觉:Survey 是 100 篇论文的”压缩包”——你花 4 小时读完,等于花 100 小时看完原 SOTA 的 60% 信息密度。性价比 25:1。
1.2 4 篇 survey 的角色分工
| Survey | 角色 | 谁应该重点读 |
|---|---|---|
| CoALA | ”Agent 是什么、Memory 是其子模块” 的 framework | 所有 Memory 新人 |
| MemOS | ”Memory 作为 OS”的最新综述(2025-2026) | 准备做 Memory 系统设计的人 |
| Memory Survey 2025 | G1-G3 全谱系统化分类 | PhD 准备选题的人 |
| Anatomy of Agentic Memory | 评测局限的 empirical analysis | 准备审论文 / 跑实验的人 |
🌟 建议读法:4 篇按 CoALA → MemOS → Memory Survey → Anatomy 顺序读。第一篇定义”是什么”,第二篇给最新地图,第三篇填细节,第四篇给批判视角。
2. CoALA:Cognitive Architectures for Language Agents
2.1 基本信息
- 作者:Sumers, Yao, Narasimhan, Griffiths (Princeton)
- 时间:2023.09
- 类型:framework / taxonomy paper
- arXiv:2309.02427
2.2 一句话动机
“把 LLM agent 拆成 cognitive architecture(认知架构):working memory + long-term memory + reasoning + grounding——为后续所有 agent 架构提供 vocabulary。“
2.3 核心 taxonomy
CoALA 把 LLM agent 拆成 4 个模块(这套词汇被 G3 时代的所有论文沿用):
┌─────────────────────────────────────────────────┐
│ LLM Agent │
│ │
│ ┌──────────────┐ ┌──────────────────────┐ │
│ │ Working │ │ Long-term Memory │ │
│ │ Memory │←──→│ - Episodic │ │
│ │ (in-context)│ │ - Semantic │ │
│ │ │ │ - Procedural │ │
│ └──────┬───────┘ └──────────────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ ┌──────────────────────┐ │
│ │ Reasoning │ │ Grounding │ │
│ │ (LLM) │ │ (tool / env / human)│ │
│ └──────────────┘ └──────────────────────┘ │
└─────────────────────────────────────────────────┘
4 类 Long-term Memory:
| 类型 | 类比 | 工业例子 |
|---|---|---|
| Working Memory | 工作记忆(认知科学) | 当前对话 context |
| Episodic | 海马体的”事件" | "用户上次抱怨了发货慢” |
| Semantic | 大脑皮层的”知识" | "用户偏好咖啡不加糖” |
| Procedural | 小脑的”运动模式" | "处理退款的标准 SOP” |
2.4 对后续工作的影响
🌟 CoALA 提出的 4 类 Memory 几乎成为 G3 所有论文的默认词汇:
- MemGPT 的”core memory + archival memory”映射到 working + episodic
- Mem0 的”facts + episodes + preferences”是 semantic + episodic + procedural 的实现
- MemoryOS 的 short / mid / long-term 是这套词汇的 OS 化重命名
2.5 批评
- CoALA 给的是词汇,不是实现——很多 G3 论文借用词汇但实际没分这 4 类
- “Procedural memory”在 LLM agent 里实际很罕见,多数系统不实现
- 没有讨论 write trigger / forgetting / consolidation 的细节
2.6 30 秒 takeaway
Agent 的 4 模块(Working / Long-term / Reasoning / Grounding)+ Long-term 的 4 类(Working / Episodic / Semantic / Procedural)。这套词汇必须熟到说梦话能背出来——后续所有论文都用它。
3. MemOS:Memory OS for AI System
3.1 基本信息
- 作者:Li et al.(多机构联合)
- 时间:2025.07
- 类型:survey + framework paper
- arXiv:2507.03724
3.2 一句话动机
“把 AI 系统的 memory 视为 OS:有 process(agent 任务)、memory hierarchy(多层缓存)、scheduler(写决策)、garbage collection(forgetting);用 OS 抽象统一所有 G2/G3 系统。“
3.3 核心 taxonomy
MemOS 给 G3 时代提出”4 层 hierarchy”:
┌─────────────────────────────────────┐
│ L0: Working Set (in-context) │ ← 上下文窗口
├─────────────────────────────────────┤
│ L1: Hot Cache (近期对话 / 高频) │ ← 短期记忆
├─────────────────────────────────────┤
│ L2: Warm Storage (持久化) │ ← 长期记忆主体
├─────────────────────────────────────┤
│ L3: Cold Archive (冷存储 / 归档) │ ← 极少访问
└─────────────────────────────────────┘
4 个 OS 类比组件:
| 组件 | OS 类比 | Memory 中的角色 |
|---|---|---|
| Process | 进程 | 当前 agent 任务(含多轮对话) |
| Scheduler | 调度器 | 写决策(何时把 L0 提升到 L1) |
| Eviction | 淘汰策略 | forgetting(L1 → L2 → L3) |
| Page Fault | 缺页 | retrieval miss / 触发深度搜索 |
3.4 对后续工作的影响
- LightMem / MemoryOS 的”短期/中期/长期”三层直接照搬这个 hierarchy
- 一批 2025-2026 系统把 OS 隐喻发扬光大(“memory paging”、“memory cache lines”)
- 给后续工作的 vocabulary:当你说 “L1 hot cache hit rate” 时,所有 G3 reader 立刻明白
3.5 批评
- OS 类比强行套到 Memory 上有限制:OS 内存管理是硬件物理约束,Memory 是软件设计选择
- 4 层 hierarchy 的 hyperparameter(L1/L2/L3 各自大小)跨 dataset 不可移植
- 评测部分薄弱,没有给跨系统的 paired benchmark
3.6 30 秒 takeaway
Memory = OS 视角的 4 层 hierarchy + 4 个调度组件。MemOS 给 G3 论文提供了”4 层 + scheduler + eviction”的标准 vocabulary,但实际系统是否真用 4 层取决于具体设计。
4. Memory Survey 2025:G1-G3 系统化梳理
4.1 基本信息
- 作者:Zhang et al.(多机构联合)
- 时间:2025 年中(持续 update)
- 类型:comprehensive survey
- 状态:arXiv preprint,已更新到 v3+
4.2 一句话动机
“把 2020-2025 所有 Long-term Memory for LLM 论文按统一框架综述:从 vector DB 早期到 G3 agentic 系统,给每个子方向最完整的 reading list。“
4.3 核心 taxonomy
Memory Survey 2025 给的是 3 轴分类(比 MemOS 多 1 维):
| 轴 | 取值 |
|---|---|
| Memory Type(沿用 CoALA) | working / episodic / semantic / procedural |
| Storage Backend | vector / graph / KV / hybrid |
| Write Strategy | passive (RAG-style) / active (LLM-driven) / hybrid |
🌟 3 轴 = 4×4×3 = 48 cells,survey 里给每个 cell 至少 2 个代表系统。
4.4 对后续工作的影响
- 提供最完整的”代表系统 vs cell”映射,是写自己论文 §2 Related Work 的最好素材
- 给 100+ 篇论文的 BibTeX 已整理好
- 给”我的论文落在哪个 cell”提供清晰参考
4.5 批评
- Comprehensive 但浅——每系统平均只有 1 段
- Taxonomy 维度过多导致 cell 数过多,部分 cell 只有 1 个系统(不构成”分类”)
- 评测方法论部分薄弱(这正是 Anatomy of Agentic Memory 的切入点)
4.6 30 秒 takeaway
3 轴(Type × Storage × Write)= 48 cells 的 G1-G3 全谱系。Memory Survey 2025 是 BibTeX 大全 + reading list,新人收藏即用。
5. Anatomy of Agentic Memory:评测局限的 empirical analysis
5.1 基本信息
- 作者:Anonymous(投稿中)
- 时间:2026.02
- 类型:empirical critique survey
- arXiv:2602.19320
5.2 一句话动机
“我们不再给 taxonomy;我们给数据:在统一 pipeline 上跑 G3 5-8 个系统,揭示绝对 acc 30 pp 差距大多数来自 retrieval / judge 不可比,而非 memory design 本身。“
5.3 核心发现
| 发现 | 数据 | 意义 |
|---|---|---|
| Retrieval 强度差异解释 ~20 pp | LongMemEval 对照实验 | 同 Yuan’26 一致 |
| Judge 实现差异解释 ~5 pp | 自家 judge vs official judge | 论文里 5 pp = 关键差距 |
| Oracle 路由偷分 5-15 pp | 关掉 question_type 路由的对照 | 多数 G3 隐含使用 |
| 真实 paired Δ ≤ 3 pp | 控制混杂后 G3 vs zero-build | ”提升 30 pp”是错觉 |
5.4 对后续工作的影响
- 方法论冲击:让 reviewer 默认要求 paired + 公开 judge code
- 给本模块作者论文(Cache Hits Don’t Save Agent Memory)提供直接的方法论先验
- 推动 preregistration 在 NLP / Memory 子领域普及
5.5 批评
- 只测了 5-8 个系统,不全(leaves out Memori、D-MEM 等)
- 自己也只用 1 个 backbone
- “20 pp / 5 pp / 5-15 pp”的分解依赖回归拟合,不是因果
5.6 30 秒 takeaway
G3 论文里的”提升 30 pp”,真实可比的 paired Δ 多数 ≤ 3 pp;剩下来自 retrieval + judge + oracle 三层不可比。这一篇 + Yuan’26 = 2026 年 Memory 论文审计的方法论基础。
6. 4 篇 survey 的横向对比
| 维度 | CoALA | MemOS | Memory Survey 2025 | Anatomy of Agentic Memory |
|---|---|---|---|---|
| 时间 | 2023.09 | 2025.07 | 2025 持续 update | 2026.02 |
| 视角 | Cognitive Architecture | OS | Taxonomy | Empirical critique |
| 贡献类型 | Framework / vocabulary | Framework + survey | Comprehensive reading list | 批评性 empirical |
| 覆盖系统数 | ~15 | ~30 | ~100 | ~8(深度对比) |
| 主张强度 | 中(提供词汇) | 中(提供类比) | 弱(综合) | 强(批评) |
| 是否包含 paired data | ❌ | 部分 | ❌ | ✅ |
| 适合读的时机 | 第 1 周 | 第 2 周 | 当 reference 用 | 准备写论文前 |
🌟 核心:4 篇 survey 不是替代关系,是 complementary——CoALA 给词汇、MemOS 给地图、Memory Survey 给清单、Anatomy 给批评视角。4 篇都读、按顺序读。
7. 用 survey 建立你自己的术语词典
读完 4 篇 survey,建议建立一份个人术语词典(推荐用 Notion / Obsidian):
7.1 术语词典模板
## 术语:Episodic Memory
- 定义(CoALA):海马体类比的事件记忆
- 系统例(Generative Agents):每天结束的 reflection 写入 episodes
- 系统例(A-Mem):作为 fact graph 节点的事件
- 我的理解:用一句生活化语言重述
- 易混淆:与 Semantic Memory 的边界?(episodic 是"某次发生",semantic 是"事实陈述")
7.2 必收的 20 个核心术语
按 CoALA / MemOS / Memory Survey / Anatomy 出现频率排:
| 术语 | 来源 |
|---|---|
| Working / Episodic / Semantic / Procedural Memory | CoALA |
| Write Trigger | Memory Survey |
| Retrieval Policy | Memory Survey |
| Consolidation | CoALA + Memory Survey |
| Forgetting / Eviction | MemOS |
| Hierarchy(L0-L3) | MemOS |
| Paired Comparison | Anatomy |
| Oracle Routing | Anatomy |
| Information Density | Anatomy + 本模块作者论文 |
| Reflection | Generative Agents(实操术语) |
| Fact Extraction | Mem0(实操术语) |
| Cache Hit Rate | 本模块作者论文 |
| Paired Binary Accuracy | 模块十九 Ch4 |
| McNemar / TOST | 模块十九 Ch4 |
| Pre-registration | 模块十九 Ch4 |
| Positive Control | 模块十九 Ch5 |
| Optional Stopping | 模块十九 Ch4 / Ch7 |
| Backbone Robustness | 模块十九 Ch6 |
| Build Cost | 本模块作者论文 |
| Mechanism Atlas | 本模块作者论文 |
🌟 建议:每读一篇 SOTA 论文前,先查这 20 个术语在该论文里的”实际定义”——你会发现 20% 的论文偏离 survey 标准用法。
✅ 自我检验清单
- Survey 价值:能解释为什么”先读 4 篇 survey”比”先读 10 篇 SOTA”信息密度高
- CoALA 4 类:能讲出 working / episodic / semantic / procedural 各 1 个 G3 系统例
- MemOS 4 层:能讲清 L0-L3 hierarchy 和 4 个 OS 类比组件
- Memory Survey 3 轴:能用 3 轴定位任意 1 个 SOTA 系统
- Anatomy 4 发现:能讲清 retrieval / judge / oracle / paired 各自解释多少 pp 差距
- 4 篇横向对比:能解释 CoALA vs MemOS vs Memory Survey vs Anatomy 各自的不可替代性
- 20 术语:能 1 分钟内讲出 20 个核心术语中至少 15 个的定义
- 个人词典:建立了至少 10 条自己的术语笔记
📚 参考资料
概念入门
- 本路线第 1 章 论文地图 —— 配合本章使用
- 模块五 Agent Memory ch1-2 —— CoALA 词汇的工程化落地讲解
关键论文(本章 4 篇主角)
- CoALA(Sumers et al., 2023):arXiv 2309.02427 —— 4 模块 / 4 类 Memory 的元论文
- MemOS(Li et al., 2025):arXiv 2507.03724 —— 4 层 OS hierarchy + scheduler + eviction
- Memory Survey 2025(Zhang et al.)—— 3 轴 / 48 cell 全谱系(arXiv 持续 update)
- Anatomy of Agentic Memory(Anonymous, 2026):arXiv 2602.19320 —— 批评性 empirical analysis
行业讨论
- Notion / Obsidian 用户分享的 Agent Memory 术语词典模板 —— GitHub 搜索”agent memory glossary”
- arXiv RSS 订阅 “agent memory” / “long-term memory LLM” —— 跟最新 survey 更新
框架文档(如适用)
- Letta(原 MemGPT)GitHub —— CoALA 4 模块的工程化样本
- Mem0 文档 —— “facts / episodes / preferences”是 CoALA 词汇的实际实现