跳到主要内容
Agent Memory 论文演进与综述精读

第5章:G2/G3 SOTA 11 篇精读——Mem0 / A-Mem / MemoryOS / LightMem / EMem / Memori / LiCoMemory / Nemori / SimpleMem / D-MEM / Selective Memory

11 个 2024-2026 G2/G3 SOTA 系统逐篇深读:动机 / 机制(含 ASCII 框图)/ write trigger / read behavior / 关键代码位置 / 数据 / 批评 / 与 G1 传承关系

G2 G3 Mem0 A-Mem MemoryOS LightMem Memori SOTA

模块十九 Ch2 §4 给出了 11 系统的 200 字 atlas 卡片;本章把这些卡片扩展成 800-1500 字的深读笔记:每篇含动机、机制 ASCII 框图、write trigger / read behavior 落点、关键代码位置(精确到文件 / 函数名)、论文宣称、真实评测水分、与 G1 的传承关系、对后续工作的影响。读完本章,你能为任意 G3 系统在白板上 5 分钟讲清”它做了什么、它的水分在哪、它的代码该看哪个文件”。

📑 目录


1. Mem0(2025.04)—— production-ready 标杆

1.1 基本信息

  • arXiv:2504.19413
  • GitHubmem0ai/mem0
  • 类型:商业开源系统 + arXiv 论文

1.2 动机

“研究界把 fact-extract / update / delete 拆得太细;工业界需要一个开箱即用的 SDK:mem.add() / mem.search() 这种 RAG-friendly 接口。“

1.3 机制(ASCII 框图)

   ┌─────────────────┐
   │  user message   │
   └────────┬────────┘

   ┌─────────────────┐
   │ LLM fact extract│   ← input-driven,每条 add() 触发
   └────────┬────────┘

   ┌─────────────────┐
   │ semantic dedup  │   ← 与已有 facts 做相似度
   └────────┬────────┘

        update or insert

   ┌─────────────────┐
   │  FAISS index    │
   └─────────────────┘

1.4 关键代码

  • mem0/memory/main.py:add():入口
  • mem0/memory/main.py:_extract_facts():LLM 抽取
  • mem0/memory/main.py:search():检索

1.5 数据 / 宣称

  • LongMemEval acc +10pp vs OpenAI Memory baseline
  • token 节省 90%

1.6 水分

  • baseline 是已知最弱的 OpenAI memory(不是 hybrid retrieval)
  • 自家 judge
  • 商业 API 部分不开源

1.7 与 G1 传承

直接继承 MemGPT 的 “存事实 + 取事实” 范式,简化掉了 MemGPT 的 OS hierarchy。

1.8 30 秒 takeaway

Mem0 = production-ready 工程化模板。研究价值需要 paired 重测;工程价值(API、SDK)显著。


2. A-Mem(NeurIPS 2025)—— Zettelkasten fact graph

2.1 基本信息

2.2 动机

“Mem0 的 facts 是 flat 的;真正的’agentic memory’应该让 fact 之间自动建立链接(类似德国学者 Zettelkasten 卡片盒方法),retrieval 时通过链接扩散。“

2.3 机制

fact A: "user dislikes cilantro"

       │ link (added by LLM after every output)

fact B: "user prefers Italian over Mexican"

       │ link

fact C: "Italian restaurant XYZ is good"

retrieval = top-K by similarity + 1-hop link expansion

2.4 关键代码

  • agentic_memory/memory_system.py:add_memory():写决策(output-driven)
  • agentic_memory/memory_system.py:_link():链接生成

2.5 数据 / 宣称

  • LongMemEval 多 ability 类 SOTA-level
  • 强调”emergent organization”

2.6 水分

  • build token 高达 1.26M / conversation
  • 未与等成本 retrieval-only 对比
  • “emergent”实际是 LLM 强制链接,未必”emerge”

2.7 与 G1 传承

继承 HippoRAG 的”建索引时建立 link”思路,但用 LLM 而非 PageRank。

2.8 30 秒 takeaway

A-Mem = 真正 agentic 的 fact graph,创新真实但成本极高。“+成本 - 收益”性价比未公开。


3. MemoryOS(EMNLP 2025 Oral)—— OS 隐喻延伸

3.1 基本信息

3.2 动机

“把 MemGPT 的 OS 隐喻发扬光大:4 层 hierarchy + scheduler + page-fault 工程化。“

3.3 机制

┌─────────────────────────────────┐
│  short-term (raw turns)         │  L0 ← scheduled write,buffer 满转 L1
├─────────────────────────────────┤
│  mid-term (LLM-summarized)      │  L1 ← FIFO eviction 到 L2
├─────────────────────────────────┤
│  long-term (consolidated)       │  L2 ← 永久保留
└─────────────────────────────────┘

retrieval = adaptive (short → mid → long 各自检索,融合)

3.4 关键代码

  • memoryos/short_term.py / mid_term.py / long_term.py:三层
  • memoryos/scheduler.py:调度

3.5 数据 / 宣称

  • 跨多 benchmark SOTA-level
  • 强调”adaptive retrieval”

3.6 水分

  • build token 669K / conversation(中等偏高)
  • adaptive routing 部分依赖 question_type,疑似 oracle
  • hyperparameter 密度高(每层大小都要调)

3.7 与 G1 传承

直接继承 MemGPT,加入 mid-term 中间层 + LLM 总结。

3.8 30 秒 takeaway

MemoryOS = OS 隐喻的完整工程化。是 G3 时代 “hierarchical memory” 这一支的事实参考实现。


4. LightMem(ICLR 2026)—— deferred extraction 117× 节省

4.1 基本信息

  • arXiv:2510.18866

4.2 动机

“A-Mem 1.26M / Mem0 1.6M token build cost 太贵;把抽取延迟到 buffer 满 512 token 才触发,可省 117×。“

4.3 机制

turn 1 ──┐
turn 2   │
turn 3   │  ← 累计 token < 512
turn 4   │     (Atkinson-Shiffrin sensory buffer)
turn 5 ──┤  ← ≥ 512 触发!

    LLM extract once

    short-term memory

         ▼ (sleep-time consolidation)
    long-term memory

4.4 关键代码

  • lightmem/sensory_buffer.py:should_consolidate()
  • lightmem/consolidation.py:consolidate()

4.5 数据 / 宣称

  • 117× token 节省
  • accuracy 持平或优

4.6 水分

  • 117× 是对比”每对话全 extract”,不是 zero-build retrieval
  • 与 SimpleMem 等 strong baseline 缺 paired

4.7 与 G1 传承

延续 MemoryBank 的 Atkinson-Shiffrin 三层模型 + ReadAgent 的 gist 想法。

4.8 30 秒 takeaway

LightMem = build cost 优化的真金白银。工程价值清晰;研究价值在”延迟抽取”这一个被证实有效的杠杆。


5. EMem(2025.11)—— density gating 极简

5.1 基本信息

  • arXiv:2511.17208

5.2 动机

“扔掉所有花哨设计,只做 density gating:低信息密度对话直接跳过 extract,看能不能成为 strong baseline。“

5.3 机制

def on_input(msg):
    if information_density(msg) < tau:
        return  # 跳过
    extract_and_store(msg)

5.4 关键代码

  • emem/density_gate.py:should_extract()

5.5 数据 / 宣称

  • “long-term conversational memory 上的 strong baseline”
  • 简单但有效

5.6 水分

  • density 阈值是 dataset-tuned hyperparameter
  • 跨 dataset 不可移植

5.7 30 秒 takeaway

EMem = strong baseline 论文。给”复杂 G3 是否真的优于简单门控”提供锚点;与 SimpleMem 并列为 G3 阵营的”诚实下界”。


6. Memori(2026)—— LoCoMo 81.95% F1 高点

6.1 基本信息

  • arXiv:2603.19935

6.2 动机

“persistent memory layer + context-aware retrieval:把所有 G3 优点(output-driven write + adaptive read)打包成生产化系统。“

6.3 机制

output-driven extract


  persistent layer


  context-aware retrieval
  (query embedding + recency + importance)

6.4 数据 / 宣称

  • LoCoMo F1 = 81.95%(论文里报告的绝对高点)

6.5 水分

  • repo 未完全开源
  • retrieval pipeline 强度未充分披露
  • 与 zero-build retrieval 的 paired 缺失

6.6 与 G1 传承

继承 Generative Agents 的 reflection + MemGPT 的 persistent layer。

6.7 30 秒 takeaway

Memori = LoCoMo F1 绝对高点的代表。但本模块作者论文 + Yuan’26 都暗示这个高点的可比性极差——其他实验室用同 backbone 跑 LoCoMo 拿不到这个数字。


7. LiCoMemory(2025.11)—— lightweight + cognitive

7.1 基本信息

  • arXiv:2511.01448

7.2 动机

“边缘设备需要 memory;让 Memory 在低算力下也能跑——lightweight 设计 + cognitive 启发。“

7.3 机制

input-driven write + retrieval-only read,但全部用小模型(embedder 与 retriever)+ 简化 prompt。

7.4 数据 / 宣称

低算力下 SOTA-level

7.5 水分

  • 未与同 backbone 的 Mem0 / A-Mem paired
  • “cognitive”是叙事 hook,未对应具体可证伪机制

7.6 30 秒 takeaway

LiCoMemory = 成本约束维度的占位。如果要 deploy 到 edge,是好起点;研究价值需 paired 重测。


8. Nemori(2025.08)—— self-organizing 组块化

8.1 基本信息

  • arXiv:2508.03341

8.2 动机

“按认知科学的’组块化(chunking)‘原则让 memory 自组织——不预设结构,让 LLM 在反思中 emerge 出最优组织。“

8.3 机制

output-driven extract + reflection-based reorganize + generative-on-read。

8.4 数据 / 宣称

长对话上自组织优于固定结构

8.5 水分

  • 自组织参数未公开
  • “自组织”实际是 LLM 强制 cluster,未必”emerge”

8.6 30 秒 takeaway

Nemori = reflection-based reorganization 的代表。reflection trigger 这条线仍未被严格证伪过,值得继续看。


9. SimpleMem(2026)—— G3 阵营的诚实 baseline

9.1 基本信息

  • arXiv:2601.02553

9.2 动机

“如果朴素方案够用,为什么搞复杂?只做 chunk + dedup,不做 LLM extract——看能不能匹配 G3 SOTA。“

9.3 机制

chunk every K turns


  exact-dedup


  hybrid retrieval (top-K)

无 LLM extract、无 graph、无 hierarchy。

9.4 数据 / 宣称

简单但接近 SOTA

9.5 水分

水分极小——这是它的价值。

9.6 30 秒 takeaway

SimpleMem = G3 阵营的 strong baseline。本模块作者建议把 SimpleMem 当成 G3 论文必备的对比基线——任何 G3 系统如果打不过 SimpleMem,需要解释”为什么我的复杂度合理”。


10. D-MEM(2026)—— dopamine-gated RL trigger

10.1 基本信息

  • arXiv:2603.14597

10.2 动机

“前所有 G3 系统的 write trigger 是 hand-designed;用 RL 学一个最优 trigger 策略——奖励信号来自 reward prediction error(多巴胺类比)。“

10.3 机制

state = [retrieval_conf, novelty, recency, ...]


  RL policy (PPO)


  action: write or skip


  reward: downstream task acc Δ

10.4 数据 / 宣称

RL 学到的策略优于固定规则

10.5 水分

  • 奖励信号定义高度任务依赖
  • 跨任务泛化未充分测
  • 训练 PPO 本身 cost 高

10.6 30 秒 takeaway

D-MEM = RL trigger 这条新方向的代表。真正未充分探索;如果要做 PhD 选题,这是 OP(开放问题)之一。


11. Selective Memory(2026)—— write-time gating + hierarchical archiving

11.1 基本信息

  • arXiv:2603.15994

11.2 动机

“系统化研究’选择性写入’:把 gating 做成可证伪命题(不是 vague 的 ‘selective’)+ archiving 做分层。“

11.3 机制

write-time gate(多信号融合)+ archive 时按重要性分层。

11.4 数据 / 宣称

“selective” 优于”全写”

11.5 水分

  • gating 阈值的 sensitivity sweep 缺位
  • archive 分层 hyperparameter 多

11.6 30 秒 takeaway

Selective Memory = 与本模块审计视角最契合的工作——它把”selective”当可证伪命题来做,是 G3 时代少见的方法论自觉。


12. 11 系统横向对比矩阵

#系统WriteReadBuild costPaired开源研究价值工程价值
1Mem0inputretrieval⭐⭐⭐
2A-Memoutputgen-on-read高(1.26M)⭐⭐⭐
3MemoryOSscheduledadaptive中高(669K)⭐⭐⭐⭐
4LightMemscheduled+threshretrieval⭐⭐⭐⭐⭐
5EMeminput-gatedretrieval⭐⭐⭐⭐⭐
6Memorioutputadaptive⭐⭐
7LiCoMemoryinputretrieval极低⭐⭐
8Nemorioutput+reflgen-on-read⭐⭐
9SimpleMeminputretrieval极低⭐⭐⭐⭐⭐
10D-MEMRLadaptive高(RL)⭐⭐⭐
11Selectivehybridadaptive⭐⭐⭐

🌟 核心观察11 系统全部缺 paired McNemar against zero-build retrieval——这正是本模块作者论文和 Anatomy 在 fix 的方法论缺陷。


✅ 自我检验清单

  • 能为 11 系统中任意 1 个在白板上 5 分钟讲清机制
  • 能为 11 系统排出”代码可读性 / 工程价值 / 研究价值”三档
  • 能讲出每篇与 G1 哪个奠基论文有传承关系
  • 能为每篇指出”论文宣称 vs 真实水分”的具体差距
  • 能识别 2 个尚未被任何系统占据的 atlas cell(与模块十九 Ch2 §3 对接)
  • 能为自己的 ARR 论文挑出 3 个必对比的 SOTA baseline
  • 能说出为什么 SimpleMem 应该是 G3 必备对比基线

📚 参考资料

概念入门

  • 模块十九 第 2 章 §4 atlas 卡片 —— 11 系统的 200 字快查版
  • 本路线第 1 章 —— 论文地图视角

关键论文(本章 11 篇主角)

行业讨论

  • OpenReview NeurIPS 2025 / ICLR 2026 / EMNLP 2025 上述 11 系统的公开 review

框架文档(如适用)

  • mem0ai/mem0 GitHub —— Mem0
  • wujiangxu/A-Mem GitHub —— A-Mem
  • BAI-LAB/MemoryOS GitHub —— MemoryOS