跳到主要内容
Agent Memory 论文演进与综述精读

第1章:Agent Memory 论文地图——3 代演进、5 大问题域、阅读优先级矩阵

把 100+ 篇 Agent Memory 论文压成一张地图:按代次(G1/G2/G3)、按问题域(write trigger / retrieval / consolidation / forgetting / evaluation)、按 venue / 按重要性四种 view 各看一遍;给「先读哪些、后读哪些、跳过哪些」的优先级矩阵;新人 30 分钟得到全局观

Agent Memory 论文地图 演进 G1 G2 G3 优先级 快速入门

打开 arXiv 搜 “agent memory”,2024-2026 这两年涌出 100+ 篇相关论文,每篇都说自己是 SOTA。新人第一反应是焦虑——“全读完得 3 个月”。本章把这 100+ 篇压成 1 张地图:3 代演进(who decides what to write)+ 5 大问题域(write/read/consolidate/forget/evaluate)+ 4 种 view(time/topic/venue/importance),让你在 30 分钟内建立全局观,知道先读哪几篇能拿到 80% 信息密度,哪几篇可以放到第 8 周再读,哪几篇可以彻底跳过。这一章不教你任何具体论文的内容(那是第 4-8 章);它教你**“读 Memory 论文之前应该先建立的心智模型”**。

📑 目录


1. 三代演进:从”开发者写规则”到”LLM 自主写”

按”谁决定写什么、何时写”分代(这是模块十九 Ch2 的核心 axis,本章再正面讲一次):

G1 (2020-2023 H1)             G2 (2023 H2-2024)           G3 (2025-2026)
   外部 RAG                       结构化 Memory              Agentic 自主写
       │                              │                          │
       ▼                              ▼                          ▼
   开发者写规则                LLM 用 function 自我编辑     LLM 自主决定何时写
   (ConversationBuffer        (MemGPT, Generative           (Mem0, A-Mem,
    Memory, naïve RAG)         Agents, HippoRAG)             MemoryOS, ...)

1.1 每代解决的真问题(同模块十九 Ch2 §1.1)

解决了什么引入了什么新问题
G1”上下文窗口不够”上下文写什么靠开发者拍脑袋
G2”把规则部分交给 LLM”评测变得不可比、hyperparameter 密度高
G3”彻底自动化写决策”build cost 爆炸、oracle 难发现、paired 评测松弛

1.2 代际识别表(拿到一篇陌生论文怎么定代)

特征多半是 G1多半是 G2多半是 G3
写决策固定规则(每对话写)LLM tool call 自我编辑LLM 自主判断写不写
数据结构flat embeddingshierarchical / graphlearned / dynamic
评测单数字 accacc + ablationpaired + sensitivity
论文标题”RAG for X""Self-X memory""Agentic / Selective / Adaptive memory”

🌟 新人 tip:看到 2023 年前的 Memory 论文,默认 G1,重点看它的数据结构(vector / KV / graph),写策略多半不是重点。看到 2025 年后的,默认 G3,重点看 write trigger 和 oracle 处理。


2. 五大问题域:把 Memory 拆成可独立研究的子任务

把 Memory 从”端到端系统”切成 5 个可独立研究的子任务——每个子任务都有自己的论文集群:

                      ┌─────────────────────────┐
        write         │  ① 何时写 / 写什么      │  → trigger primitive 论文
                      │     (write trigger)     │
                      └────────────┬────────────┘


                      ┌─────────────────────────┐
                      │  ② 怎么存 / 数据结构   │  → storage backend 论文
                      │   (storage backend)     │
                      └────────────┬────────────┘


                      ┌─────────────────────────┐
                      │  ③ 怎么取 / retrieve   │  → retrieval / RAG 论文
                      │   (retrieval policy)    │
                      └────────────┬────────────┘


                      ┌─────────────────────────┐
                      │  ④ 整理 / 合并 / 衰减  │  → consolidation / forget 论文
                      │  (consolidate, forget)  │
                      └────────────┬────────────┘


                      ┌─────────────────────────┐
                      │  ⑤ 测试 / 评测           │  → benchmark / eval 论文
                      │   (evaluation)          │
                      └─────────────────────────┘

2.1 五大问题域 vs 论文集群

问题域代表论文(精读章节)状态
① write triggerA-Mem / Mem0 / LightMem / EMem / D-MEM最热,最多论文
② storage backendMemGPT / Letta / HippoRAG / Zep / Graphiti较成熟,新论文少
③ retrieval policyHippoRAG / Mem0 retrieval / Memori adaptive与 RAG 高度重叠
④ consolidation / forgetMemoryBank(Ebbinghaus)/ FadeMem / Nemori(reflection)中等热度
⑤ evaluationLongMemEval / LoCoMo / MemBench / MEMTRACK / 本模块作者论文急速崛起,方法论核心

🧠 关键洞察80% 的 G3 论文集中在 ①(write trigger),但 ⑤(evaluation)才是 2026 年的方法论瓶颈。如果你想发论文,⑤ 比 ① 更有空白。

2.2 怎么用问题域读论文

拿到一篇陌生论文,先回答:

□ 这篇论文主要 contribution 在哪个问题域?
   (一般 abstract 第 2-3 句能定位)

□ 它对其他 4 个问题域采用了什么默认方案?
   (这是它的"hidden assumption")

□ 它和同问题域的前一代代表(如 A-Mem vs Mem0)有什么差异?
   (这是 reading group 上要讨论的)

🌟 本路线第 4-5 章的精读卡都按上面 3 个问题展开


3. 4 种 view:从不同角度看同一批论文

同一批 40 篇论文可以按 4 种 view 来组织——每种 view 适合不同目的。

3.1 View 1:时间线(最适合”演进式”理解)

2023 Q1  Generative Agents
2023 Q4  MemGPT
2024 Q1  LoCoMo, HippoRAG, MemoryBank, ReadAgent
2024 Q4  LongMemEval (ICLR'25)
2025 Q1  A-Mem (NeurIPS'25)
2025 Q2  Mem0, MemoryOS (EMNLP'25 Oral)
2025 Q3  Nemori, MemOS
2025 Q4  LightMem (ICLR'26), LiCoMemory, EMem
2026 Q1  SimpleMem, Memori, D-MEM, Selective Memory
2026 Q2  Anatomy of Agentic Memory, Diagnosing Retrieval vs Utilization

适合:你想从 0 学起,按演进吸收。

3.2 View 2:问题域(最适合”做研究”)

按上面 §2 五大域分类。

适合:你想找一个细分方向 PhD 选题。

3.3 View 3:Venue(最适合”刷顶会”)

Venue代表论文
ICLRLongMemEval’25, LightMem’26
NeurIPSA-Mem’25
EMNLPMemoryOS’25 (Oral)
ACLRMM’25
arXiv onlyMem0, Memori, SimpleMem, D-MEM, Selective Memory(多数 G3 仍未顶会)

🍎 直觉:G3 阵营大多还在 arXiv 阶段——这本身是 takeaway:“这个方向太新,顶会还没来得及消化”。不要只读顶会论文,会错过 70% 的 SOTA。

3.4 View 4:重要性(最适合”快速入门”)

按”读 80% 信息密度需要多少篇”排:

必读 (10 篇 = 80% 信息)推荐 (15 篇 = 95%)选读 (15 篇 = 100%)
CoALA, MemOSAnatomy of Agentic Memory, Memory Survey历史性奇文
MemGPTGenerative Agents, HippoRAGMemoryBank, ReadAgent
Mem0, A-Mem, MemoryOSLightMem, EMem, MemoriLiCoMemory, Nemori, SimpleMem, D-MEM
LongMemEval, LoCoMoMemBench, MEMTRACK
本模块作者论文Diagnosing Retrieval vs Utilization

🌟 如果你时间极紧(< 1 周):只读上面 10 篇”必读”即可,能 cover 80% 信息密度。


4. 优先级矩阵:先读哪、后读哪、跳过哪

把上面 4 种 view 综合成一张优先级矩阵:

4.1 P0 必读(10 篇,第 1-2 周)

论文类别为什么 P0
CoALASurvey整个 agent / memory 框架的元论文
MemOSSurvey”Memory OS” 视角的最新综述
MemGPTG1 经典OS 隐喻起源,后续所有 G3 默认假设
Mem0G3 工程标杆production API 实际落地的样本
A-MemG3 创新代表真正”agentic”的 fact graph
MemoryOSG3 系统设计hierarchical + adaptive read 代表
LongMemEvalBenchmark事实标准,每篇 G3 都比
LoCoMoBenchmark多查询场景的事实标准
Diagnosing Retrieval vs UtilizationDiagnosis”retrieval 解释 20pp”先验
本模块作者论文实证”cache 没用 + positive control”的负结果范式

预计阅读时间:每篇 30-90 分钟,共 8-12 小时。

4.2 P1 推荐(15 篇,第 3-6 周)

LightMem, EMem, Memori, LiCoMemory, Nemori, SimpleMem, D-MEM, Selective Memory(G3 其余 8 篇)+ MemBench, MEMTRACK(其他 2 个 benchmark)+ Generative Agents, HippoRAG, MemoryBank, ReadAgent(G1 其余 4 篇)+ Anatomy of Agentic Memory。

4.3 P2 选读(15 篇)

历史性奇文(Letta、Zep、Graphiti、LangMem、Cognee)、交叉方向(G-Memory、Hindsight、RMM、各种 Memory × X)。

4.4 P3 可跳过(其余)

  • 重复 idea 的 “me too” 论文
  • 没有公开代码 / 公开数据的论文
  • 没有 paired comparison 的论文
  • abstract 已经在 §2 翻译表里被翻成营销词的论文

审计提示:每年 Memory 类论文 60-100 篇,真正值得 P0/P1 的不超过 25 篇。剩下 40+ 篇可以扫 abstract + Figure 1 然后归档。


5. 论文密度:每年新出多少、增长曲线

论文数 / 年("agent memory" 关键词)
   ^
100|                                    █ 2026 (估)
   |
 80|                              █ 2025
   |
 60|
   |                        █ 2024
 40|
   |
 20|                   █ 2023
   |
  5|     █ 2022
   +-----+----+----+----+----+--->
        '22  '23  '24  '25  '26

🍎 直觉论文数年增 80-100%,但真正的方法论突破不超过 10 个 / 年。前者是焦虑源,后者才是必须跟上的。本路线就是帮你识别后者。


6. 30 分钟全局观练习

如果你只有 30 分钟想拿到 Memory 这条赛道的”地图”:

[5 min]  读完本章 §1 三代演进表
[10 min] 读 MemOS arXiv abstract + Figure 1 + Table 1
[10 min] 读本模块作者论文 §2 11 系统 atlas 表
[5 min]  在 §4 优先级矩阵上标 5 篇你最关心的,列入 P0

🌟 完成上面 30 分钟后,你应该能回答

  1. 这条赛道分几代?
  2. 我个人最感兴趣的是哪个问题域(write / read / consolidate / forget / evaluate)?
  3. 下一周我会读哪 3 篇?
  4. 哪些 venue 不是我应该重点关注的?

✅ 自我检验清单

  • 三代演进:能用 1 分钟讲清 G1 / G2 / G3 各自的”写决策权”差异
  • 五大问题域:能列出 write / storage / retrieval / consolidate / evaluation 并各举一例
  • 4 种 view:能解释什么时候用 time view、什么时候用 problem-domain view
  • 代次识别:拿到一篇陌生论文 1 分钟内能定到代次
  • 优先级矩阵:能为自己当下的目标(PhD 选题 / 快速入门 / 跟新论文)挑出 P0/P1
  • 80% 信息密度:能讲出 P0 10 篇里至少 7 篇的 1 句话 takeaway
  • 跳过 P3:能为一篇你 abstract 都不想读完的论文给出 P3 理由

📚 参考资料

概念入门

  • 本路线第 2 章 Survey 精读 —— 把 P0 中的 4 篇 survey 逐篇拆透
  • 本路线第 3 章 阅读方法论 —— 拿到论文后怎么 30 分钟读完
  • 模块五 Agent Memory 学习路线 —— 先把 Memory 是什么搞清楚

关键论文(P0 必读 10 篇)

  • CoALA(Sumers et al., 2023) —— Cognitive Architectures for Language Agents
  • MemOS(Li et al., 2025)arXiv 2507.03724
  • MemGPT(Packer et al., 2023) —— OS 隐喻奠基
  • Mem0(Chhikara et al., 2025)arXiv 2504.19413
  • A-Mem(Xu et al., NeurIPS 2025)arXiv 2502.12110
  • MemoryOS(Kang et al., EMNLP 2025)arXiv 2506.06326
  • LongMemEval(Wu et al., ICLR 2025)arXiv 2410.10813
  • LoCoMo(Maharana et al., 2024)arXiv 2402.17753
  • Diagnosing Retrieval vs Utilization(Yuan et al., 2026)arXiv 2603.02473
  • 本模块作者论文 —— Cache Hits Don’t Save Agent Memory

行业讨论

  • arXiv “agent memory” 关键词 RSS / Twitter 监控 —— 每月扫一次保持最新
  • OpenReview 公开评审记录 —— 看真实 reviewer 关切

框架文档(如适用)

  • Letta(原 MemGPT)GitHub —— G1 → G2 过渡的工程化样本
  • Mem0 GitHub —— G3 工程化代表