第1章:Agent Memory 论文地图——3 代演进、5 大问题域、阅读优先级矩阵
把 100+ 篇 Agent Memory 论文压成一张地图:按代次(G1/G2/G3)、按问题域(write trigger / retrieval / consolidation / forgetting / evaluation)、按 venue / 按重要性四种 view 各看一遍;给「先读哪些、后读哪些、跳过哪些」的优先级矩阵;新人 30 分钟得到全局观
打开 arXiv 搜 “agent memory”,2024-2026 这两年涌出 100+ 篇相关论文,每篇都说自己是 SOTA。新人第一反应是焦虑——“全读完得 3 个月”。本章把这 100+ 篇压成 1 张地图:3 代演进(who decides what to write)+ 5 大问题域(write/read/consolidate/forget/evaluate)+ 4 种 view(time/topic/venue/importance),让你在 30 分钟内建立全局观,知道先读哪几篇能拿到 80% 信息密度,哪几篇可以放到第 8 周再读,哪几篇可以彻底跳过。这一章不教你任何具体论文的内容(那是第 4-8 章);它教你**“读 Memory 论文之前应该先建立的心智模型”**。
📑 目录
- 1. 三代演进:从”开发者写规则”到”LLM 自主写”
- 2. 五大问题域:把 Memory 拆成可独立研究的子任务
- 3. 4 种 view:从不同角度看同一批论文
- 4. 优先级矩阵:先读哪、后读哪、跳过哪
- 5. 论文密度:每年新出多少、增长曲线
- 6. 30 分钟全局观练习
- ✅ 自我检验清单
- 📚 参考资料
1. 三代演进:从”开发者写规则”到”LLM 自主写”
按”谁决定写什么、何时写”分代(这是模块十九 Ch2 的核心 axis,本章再正面讲一次):
G1 (2020-2023 H1) G2 (2023 H2-2024) G3 (2025-2026)
外部 RAG 结构化 Memory Agentic 自主写
│ │ │
▼ ▼ ▼
开发者写规则 LLM 用 function 自我编辑 LLM 自主决定何时写
(ConversationBuffer (MemGPT, Generative (Mem0, A-Mem,
Memory, naïve RAG) Agents, HippoRAG) MemoryOS, ...)
1.1 每代解决的真问题(同模块十九 Ch2 §1.1)
| 代 | 解决了什么 | 引入了什么新问题 |
|---|---|---|
| G1 | ”上下文窗口不够” | 上下文写什么靠开发者拍脑袋 |
| G2 | ”把规则部分交给 LLM” | 评测变得不可比、hyperparameter 密度高 |
| G3 | ”彻底自动化写决策” | build cost 爆炸、oracle 难发现、paired 评测松弛 |
1.2 代际识别表(拿到一篇陌生论文怎么定代)
| 特征 | 多半是 G1 | 多半是 G2 | 多半是 G3 |
|---|---|---|---|
| 写决策 | 固定规则(每对话写) | LLM tool call 自我编辑 | LLM 自主判断写不写 |
| 数据结构 | flat embeddings | hierarchical / graph | learned / dynamic |
| 评测 | 单数字 acc | acc + ablation | paired + sensitivity |
| 论文标题 | ”RAG for X" | "Self-X memory" | "Agentic / Selective / Adaptive memory” |
🌟 新人 tip:看到 2023 年前的 Memory 论文,默认 G1,重点看它的数据结构(vector / KV / graph),写策略多半不是重点。看到 2025 年后的,默认 G3,重点看 write trigger 和 oracle 处理。
2. 五大问题域:把 Memory 拆成可独立研究的子任务
把 Memory 从”端到端系统”切成 5 个可独立研究的子任务——每个子任务都有自己的论文集群:
┌─────────────────────────┐
write │ ① 何时写 / 写什么 │ → trigger primitive 论文
│ (write trigger) │
└────────────┬────────────┘
│
▼
┌─────────────────────────┐
│ ② 怎么存 / 数据结构 │ → storage backend 论文
│ (storage backend) │
└────────────┬────────────┘
│
▼
┌─────────────────────────┐
│ ③ 怎么取 / retrieve │ → retrieval / RAG 论文
│ (retrieval policy) │
└────────────┬────────────┘
│
▼
┌─────────────────────────┐
│ ④ 整理 / 合并 / 衰减 │ → consolidation / forget 论文
│ (consolidate, forget) │
└────────────┬────────────┘
│
▼
┌─────────────────────────┐
│ ⑤ 测试 / 评测 │ → benchmark / eval 论文
│ (evaluation) │
└─────────────────────────┘
2.1 五大问题域 vs 论文集群
| 问题域 | 代表论文(精读章节) | 状态 |
|---|---|---|
| ① write trigger | A-Mem / Mem0 / LightMem / EMem / D-MEM | 最热,最多论文 |
| ② storage backend | MemGPT / Letta / HippoRAG / Zep / Graphiti | 较成熟,新论文少 |
| ③ retrieval policy | HippoRAG / Mem0 retrieval / Memori adaptive | 与 RAG 高度重叠 |
| ④ consolidation / forget | MemoryBank(Ebbinghaus)/ FadeMem / Nemori(reflection) | 中等热度 |
| ⑤ evaluation | LongMemEval / LoCoMo / MemBench / MEMTRACK / 本模块作者论文 | 急速崛起,方法论核心 |
🧠 关键洞察:80% 的 G3 论文集中在 ①(write trigger),但 ⑤(evaluation)才是 2026 年的方法论瓶颈。如果你想发论文,⑤ 比 ① 更有空白。
2.2 怎么用问题域读论文
拿到一篇陌生论文,先回答:
□ 这篇论文主要 contribution 在哪个问题域?
(一般 abstract 第 2-3 句能定位)
□ 它对其他 4 个问题域采用了什么默认方案?
(这是它的"hidden assumption")
□ 它和同问题域的前一代代表(如 A-Mem vs Mem0)有什么差异?
(这是 reading group 上要讨论的)
🌟 本路线第 4-5 章的精读卡都按上面 3 个问题展开。
3. 4 种 view:从不同角度看同一批论文
同一批 40 篇论文可以按 4 种 view 来组织——每种 view 适合不同目的。
3.1 View 1:时间线(最适合”演进式”理解)
2023 Q1 Generative Agents
2023 Q4 MemGPT
2024 Q1 LoCoMo, HippoRAG, MemoryBank, ReadAgent
2024 Q4 LongMemEval (ICLR'25)
2025 Q1 A-Mem (NeurIPS'25)
2025 Q2 Mem0, MemoryOS (EMNLP'25 Oral)
2025 Q3 Nemori, MemOS
2025 Q4 LightMem (ICLR'26), LiCoMemory, EMem
2026 Q1 SimpleMem, Memori, D-MEM, Selective Memory
2026 Q2 Anatomy of Agentic Memory, Diagnosing Retrieval vs Utilization
适合:你想从 0 学起,按演进吸收。
3.2 View 2:问题域(最适合”做研究”)
按上面 §2 五大域分类。
适合:你想找一个细分方向 PhD 选题。
3.3 View 3:Venue(最适合”刷顶会”)
| Venue | 代表论文 |
|---|---|
| ICLR | LongMemEval’25, LightMem’26 |
| NeurIPS | A-Mem’25 |
| EMNLP | MemoryOS’25 (Oral) |
| ACL | RMM’25 |
| arXiv only | Mem0, Memori, SimpleMem, D-MEM, Selective Memory(多数 G3 仍未顶会) |
🍎 直觉:G3 阵营大多还在 arXiv 阶段——这本身是 takeaway:“这个方向太新,顶会还没来得及消化”。不要只读顶会论文,会错过 70% 的 SOTA。
3.4 View 4:重要性(最适合”快速入门”)
按”读 80% 信息密度需要多少篇”排:
| 必读 (10 篇 = 80% 信息) | 推荐 (15 篇 = 95%) | 选读 (15 篇 = 100%) |
|---|---|---|
| CoALA, MemOS | Anatomy of Agentic Memory, Memory Survey | 历史性奇文 |
| MemGPT | Generative Agents, HippoRAG | MemoryBank, ReadAgent |
| Mem0, A-Mem, MemoryOS | LightMem, EMem, Memori | LiCoMemory, Nemori, SimpleMem, D-MEM |
| LongMemEval, LoCoMo | MemBench, MEMTRACK | — |
| 本模块作者论文 | Diagnosing Retrieval vs Utilization | — |
🌟 如果你时间极紧(< 1 周):只读上面 10 篇”必读”即可,能 cover 80% 信息密度。
4. 优先级矩阵:先读哪、后读哪、跳过哪
把上面 4 种 view 综合成一张优先级矩阵:
4.1 P0 必读(10 篇,第 1-2 周)
| 论文 | 类别 | 为什么 P0 |
|---|---|---|
| CoALA | Survey | 整个 agent / memory 框架的元论文 |
| MemOS | Survey | ”Memory OS” 视角的最新综述 |
| MemGPT | G1 经典 | OS 隐喻起源,后续所有 G3 默认假设 |
| Mem0 | G3 工程标杆 | production API 实际落地的样本 |
| A-Mem | G3 创新代表 | 真正”agentic”的 fact graph |
| MemoryOS | G3 系统设计 | hierarchical + adaptive read 代表 |
| LongMemEval | Benchmark | 事实标准,每篇 G3 都比 |
| LoCoMo | Benchmark | 多查询场景的事实标准 |
| Diagnosing Retrieval vs Utilization | Diagnosis | ”retrieval 解释 20pp”先验 |
| 本模块作者论文 | 实证 | ”cache 没用 + positive control”的负结果范式 |
预计阅读时间:每篇 30-90 分钟,共 8-12 小时。
4.2 P1 推荐(15 篇,第 3-6 周)
LightMem, EMem, Memori, LiCoMemory, Nemori, SimpleMem, D-MEM, Selective Memory(G3 其余 8 篇)+ MemBench, MEMTRACK(其他 2 个 benchmark)+ Generative Agents, HippoRAG, MemoryBank, ReadAgent(G1 其余 4 篇)+ Anatomy of Agentic Memory。
4.3 P2 选读(15 篇)
历史性奇文(Letta、Zep、Graphiti、LangMem、Cognee)、交叉方向(G-Memory、Hindsight、RMM、各种 Memory × X)。
4.4 P3 可跳过(其余)
- 重复 idea 的 “me too” 论文
- 没有公开代码 / 公开数据的论文
- 没有 paired comparison 的论文
- abstract 已经在 §2 翻译表里被翻成营销词的论文
⭕ 审计提示:每年 Memory 类论文 60-100 篇,真正值得 P0/P1 的不超过 25 篇。剩下 40+ 篇可以扫 abstract + Figure 1 然后归档。
5. 论文密度:每年新出多少、增长曲线
论文数 / 年("agent memory" 关键词)
^
100| █ 2026 (估)
|
80| █ 2025
|
60|
| █ 2024
40|
|
20| █ 2023
|
5| █ 2022
+-----+----+----+----+----+--->
'22 '23 '24 '25 '26
🍎 直觉:论文数年增 80-100%,但真正的方法论突破不超过 10 个 / 年。前者是焦虑源,后者才是必须跟上的。本路线就是帮你识别后者。
6. 30 分钟全局观练习
如果你只有 30 分钟想拿到 Memory 这条赛道的”地图”:
[5 min] 读完本章 §1 三代演进表
[10 min] 读 MemOS arXiv abstract + Figure 1 + Table 1
[10 min] 读本模块作者论文 §2 11 系统 atlas 表
[5 min] 在 §4 优先级矩阵上标 5 篇你最关心的,列入 P0
🌟 完成上面 30 分钟后,你应该能回答:
- 这条赛道分几代?
- 我个人最感兴趣的是哪个问题域(write / read / consolidate / forget / evaluate)?
- 下一周我会读哪 3 篇?
- 哪些 venue 不是我应该重点关注的?
✅ 自我检验清单
- 三代演进:能用 1 分钟讲清 G1 / G2 / G3 各自的”写决策权”差异
- 五大问题域:能列出 write / storage / retrieval / consolidate / evaluation 并各举一例
- 4 种 view:能解释什么时候用 time view、什么时候用 problem-domain view
- 代次识别:拿到一篇陌生论文 1 分钟内能定到代次
- 优先级矩阵:能为自己当下的目标(PhD 选题 / 快速入门 / 跟新论文)挑出 P0/P1
- 80% 信息密度:能讲出 P0 10 篇里至少 7 篇的 1 句话 takeaway
- 跳过 P3:能为一篇你 abstract 都不想读完的论文给出 P3 理由
📚 参考资料
概念入门
- 本路线第 2 章 Survey 精读 —— 把 P0 中的 4 篇 survey 逐篇拆透
- 本路线第 3 章 阅读方法论 —— 拿到论文后怎么 30 分钟读完
- 模块五 Agent Memory 学习路线 —— 先把 Memory 是什么搞清楚
关键论文(P0 必读 10 篇)
- CoALA(Sumers et al., 2023) —— Cognitive Architectures for Language Agents
- MemOS(Li et al., 2025):arXiv 2507.03724
- MemGPT(Packer et al., 2023) —— OS 隐喻奠基
- Mem0(Chhikara et al., 2025):arXiv 2504.19413
- A-Mem(Xu et al., NeurIPS 2025):arXiv 2502.12110
- MemoryOS(Kang et al., EMNLP 2025):arXiv 2506.06326
- LongMemEval(Wu et al., ICLR 2025):arXiv 2410.10813
- LoCoMo(Maharana et al., 2024):arXiv 2402.17753
- Diagnosing Retrieval vs Utilization(Yuan et al., 2026):arXiv 2603.02473
- 本模块作者论文 —— Cache Hits Don’t Save Agent Memory
行业讨论
- arXiv “agent memory” 关键词 RSS / Twitter 监控 —— 每月扫一次保持最新
- OpenReview 公开评审记录 —— 看真实 reviewer 关切
框架文档(如适用)
- Letta(原 MemGPT)GitHub —— G1 → G2 过渡的工程化样本
- Mem0 GitHub —— G3 工程化代表