第5章:G2/G3 SOTA 11 篇精读——Mem0 / A-Mem / MemoryOS / LightMem / EMem / Memori / LiCoMemory / Nemori / SimpleMem / D-MEM / Selective Memory
11 个 2024-2026 G2/G3 SOTA 系统逐篇深读:动机 / 机制(含 ASCII 框图)/ write trigger / read behavior / 关键代码位置 / 数据 / 批评 / 与 G1 传承关系
模块十九 Ch2 §4 给出了 11 系统的 200 字 atlas 卡片;本章把这些卡片扩展成 800-1500 字的深读笔记:每篇含动机、机制 ASCII 框图、write trigger / read behavior 落点、关键代码位置(精确到文件 / 函数名)、论文宣称、真实评测水分、与 G1 的传承关系、对后续工作的影响。读完本章,你能为任意 G3 系统在白板上 5 分钟讲清”它做了什么、它的水分在哪、它的代码该看哪个文件”。
📑 目录
- 1. Mem0(2025.04)—— production-ready 标杆
- 2. A-Mem(NeurIPS 2025)—— Zettelkasten fact graph
- 3. MemoryOS(EMNLP 2025 Oral)—— OS 隐喻延伸
- 4. LightMem(ICLR 2026)—— deferred extraction 117× 节省
- 5. EMem(2025.11)—— density gating 极简
- 6. Memori(2026)—— LoCoMo 81.95% F1 高点
- 7. LiCoMemory(2025.11)—— lightweight + cognitive
- 8. Nemori(2025.08)—— self-organizing 组块化
- 9. SimpleMem(2026)—— G3 阵营的诚实 baseline
- 10. D-MEM(2026)—— dopamine-gated RL trigger
- 11. Selective Memory(2026)—— write-time gating + hierarchical archiving
- 12. 11 系统横向对比矩阵
- ✅ 自我检验清单
- 📚 参考资料
1. Mem0(2025.04)—— production-ready 标杆
1.1 基本信息
- arXiv:2504.19413
- GitHub:mem0ai/mem0
- 类型:商业开源系统 + arXiv 论文
1.2 动机
“研究界把 fact-extract / update / delete 拆得太细;工业界需要一个开箱即用的 SDK:mem.add() / mem.search() 这种 RAG-friendly 接口。“
1.3 机制(ASCII 框图)
┌─────────────────┐
│ user message │
└────────┬────────┘
▼
┌─────────────────┐
│ LLM fact extract│ ← input-driven,每条 add() 触发
└────────┬────────┘
▼
┌─────────────────┐
│ semantic dedup │ ← 与已有 facts 做相似度
└────────┬────────┘
▼
update or insert
▼
┌─────────────────┐
│ FAISS index │
└─────────────────┘
1.4 关键代码
mem0/memory/main.py:add():入口mem0/memory/main.py:_extract_facts():LLM 抽取mem0/memory/main.py:search():检索
1.5 数据 / 宣称
- LongMemEval acc +10pp vs OpenAI Memory baseline
- token 节省 90%
1.6 水分
- baseline 是已知最弱的 OpenAI memory(不是 hybrid retrieval)
- 自家 judge
- 商业 API 部分不开源
1.7 与 G1 传承
直接继承 MemGPT 的 “存事实 + 取事实” 范式,简化掉了 MemGPT 的 OS hierarchy。
1.8 30 秒 takeaway
Mem0 = production-ready 工程化模板。研究价值需要 paired 重测;工程价值(API、SDK)显著。
2. A-Mem(NeurIPS 2025)—— Zettelkasten fact graph
2.1 基本信息
- arXiv:2502.12110
- GitHub:wujiangxu/A-Mem
2.2 动机
“Mem0 的 facts 是 flat 的;真正的’agentic memory’应该让 fact 之间自动建立链接(类似德国学者 Zettelkasten 卡片盒方法),retrieval 时通过链接扩散。“
2.3 机制
fact A: "user dislikes cilantro"
│
│ link (added by LLM after every output)
▼
fact B: "user prefers Italian over Mexican"
│
│ link
▼
fact C: "Italian restaurant XYZ is good"
retrieval = top-K by similarity + 1-hop link expansion
2.4 关键代码
agentic_memory/memory_system.py:add_memory():写决策(output-driven)agentic_memory/memory_system.py:_link():链接生成
2.5 数据 / 宣称
- LongMemEval 多 ability 类 SOTA-level
- 强调”emergent organization”
2.6 水分
- build token 高达 1.26M / conversation
- 未与等成本 retrieval-only 对比
- “emergent”实际是 LLM 强制链接,未必”emerge”
2.7 与 G1 传承
继承 HippoRAG 的”建索引时建立 link”思路,但用 LLM 而非 PageRank。
2.8 30 秒 takeaway
A-Mem = 真正 agentic 的 fact graph,创新真实但成本极高。“+成本 - 收益”性价比未公开。
3. MemoryOS(EMNLP 2025 Oral)—— OS 隐喻延伸
3.1 基本信息
- arXiv:2506.06326
- GitHub:BAI-LAB/MemoryOS
3.2 动机
“把 MemGPT 的 OS 隐喻发扬光大:4 层 hierarchy + scheduler + page-fault 工程化。“
3.3 机制
┌─────────────────────────────────┐
│ short-term (raw turns) │ L0 ← scheduled write,buffer 满转 L1
├─────────────────────────────────┤
│ mid-term (LLM-summarized) │ L1 ← FIFO eviction 到 L2
├─────────────────────────────────┤
│ long-term (consolidated) │ L2 ← 永久保留
└─────────────────────────────────┘
retrieval = adaptive (short → mid → long 各自检索,融合)
3.4 关键代码
memoryos/short_term.py/mid_term.py/long_term.py:三层memoryos/scheduler.py:调度
3.5 数据 / 宣称
- 跨多 benchmark SOTA-level
- 强调”adaptive retrieval”
3.6 水分
- build token 669K / conversation(中等偏高)
- adaptive routing 部分依赖 question_type,疑似 oracle
- hyperparameter 密度高(每层大小都要调)
3.7 与 G1 传承
直接继承 MemGPT,加入 mid-term 中间层 + LLM 总结。
3.8 30 秒 takeaway
MemoryOS = OS 隐喻的完整工程化。是 G3 时代 “hierarchical memory” 这一支的事实参考实现。
4. LightMem(ICLR 2026)—— deferred extraction 117× 节省
4.1 基本信息
- arXiv:2510.18866
4.2 动机
“A-Mem 1.26M / Mem0 1.6M token build cost 太贵;把抽取延迟到 buffer 满 512 token 才触发,可省 117×。“
4.3 机制
turn 1 ──┐
turn 2 │
turn 3 │ ← 累计 token < 512
turn 4 │ (Atkinson-Shiffrin sensory buffer)
turn 5 ──┤ ← ≥ 512 触发!
▼
LLM extract once
▼
short-term memory
│
▼ (sleep-time consolidation)
long-term memory
4.4 关键代码
lightmem/sensory_buffer.py:should_consolidate()lightmem/consolidation.py:consolidate()
4.5 数据 / 宣称
- 117× token 节省
- accuracy 持平或优
4.6 水分
- 117× 是对比”每对话全 extract”,不是 zero-build retrieval
- 与 SimpleMem 等 strong baseline 缺 paired
4.7 与 G1 传承
延续 MemoryBank 的 Atkinson-Shiffrin 三层模型 + ReadAgent 的 gist 想法。
4.8 30 秒 takeaway
LightMem = build cost 优化的真金白银。工程价值清晰;研究价值在”延迟抽取”这一个被证实有效的杠杆。
5. EMem(2025.11)—— density gating 极简
5.1 基本信息
- arXiv:2511.17208
5.2 动机
“扔掉所有花哨设计,只做 density gating:低信息密度对话直接跳过 extract,看能不能成为 strong baseline。“
5.3 机制
def on_input(msg):
if information_density(msg) < tau:
return # 跳过
extract_and_store(msg)
5.4 关键代码
emem/density_gate.py:should_extract()
5.5 数据 / 宣称
- “long-term conversational memory 上的 strong baseline”
- 简单但有效
5.6 水分
- density 阈值是 dataset-tuned hyperparameter
- 跨 dataset 不可移植
5.7 30 秒 takeaway
EMem = strong baseline 论文。给”复杂 G3 是否真的优于简单门控”提供锚点;与 SimpleMem 并列为 G3 阵营的”诚实下界”。
6. Memori(2026)—— LoCoMo 81.95% F1 高点
6.1 基本信息
- arXiv:2603.19935
6.2 动机
“persistent memory layer + context-aware retrieval:把所有 G3 优点(output-driven write + adaptive read)打包成生产化系统。“
6.3 机制
output-driven extract
│
▼
persistent layer
│
▼
context-aware retrieval
(query embedding + recency + importance)
6.4 数据 / 宣称
- LoCoMo F1 = 81.95%(论文里报告的绝对高点)
6.5 水分
- repo 未完全开源
- retrieval pipeline 强度未充分披露
- 与 zero-build retrieval 的 paired 缺失
6.6 与 G1 传承
继承 Generative Agents 的 reflection + MemGPT 的 persistent layer。
6.7 30 秒 takeaway
Memori = LoCoMo F1 绝对高点的代表。但本模块作者论文 + Yuan’26 都暗示这个高点的可比性极差——其他实验室用同 backbone 跑 LoCoMo 拿不到这个数字。
7. LiCoMemory(2025.11)—— lightweight + cognitive
7.1 基本信息
- arXiv:2511.01448
7.2 动机
“边缘设备需要 memory;让 Memory 在低算力下也能跑——lightweight 设计 + cognitive 启发。“
7.3 机制
input-driven write + retrieval-only read,但全部用小模型(embedder 与 retriever)+ 简化 prompt。
7.4 数据 / 宣称
低算力下 SOTA-level
7.5 水分
- 未与同 backbone 的 Mem0 / A-Mem paired
- “cognitive”是叙事 hook,未对应具体可证伪机制
7.6 30 秒 takeaway
LiCoMemory = 成本约束维度的占位。如果要 deploy 到 edge,是好起点;研究价值需 paired 重测。
8. Nemori(2025.08)—— self-organizing 组块化
8.1 基本信息
- arXiv:2508.03341
8.2 动机
“按认知科学的’组块化(chunking)‘原则让 memory 自组织——不预设结构,让 LLM 在反思中 emerge 出最优组织。“
8.3 机制
output-driven extract + reflection-based reorganize + generative-on-read。
8.4 数据 / 宣称
长对话上自组织优于固定结构
8.5 水分
- 自组织参数未公开
- “自组织”实际是 LLM 强制 cluster,未必”emerge”
8.6 30 秒 takeaway
Nemori = reflection-based reorganization 的代表。reflection trigger 这条线仍未被严格证伪过,值得继续看。
9. SimpleMem(2026)—— G3 阵营的诚实 baseline
9.1 基本信息
- arXiv:2601.02553
9.2 动机
“如果朴素方案够用,为什么搞复杂?只做 chunk + dedup,不做 LLM extract——看能不能匹配 G3 SOTA。“
9.3 机制
chunk every K turns
│
▼
exact-dedup
│
▼
hybrid retrieval (top-K)
无 LLM extract、无 graph、无 hierarchy。
9.4 数据 / 宣称
简单但接近 SOTA
9.5 水分
水分极小——这是它的价值。
9.6 30 秒 takeaway
SimpleMem = G3 阵营的 strong baseline。本模块作者建议把 SimpleMem 当成 G3 论文必备的对比基线——任何 G3 系统如果打不过 SimpleMem,需要解释”为什么我的复杂度合理”。
10. D-MEM(2026)—— dopamine-gated RL trigger
10.1 基本信息
- arXiv:2603.14597
10.2 动机
“前所有 G3 系统的 write trigger 是 hand-designed;用 RL 学一个最优 trigger 策略——奖励信号来自 reward prediction error(多巴胺类比)。“
10.3 机制
state = [retrieval_conf, novelty, recency, ...]
│
▼
RL policy (PPO)
│
▼
action: write or skip
│
▼
reward: downstream task acc Δ
10.4 数据 / 宣称
RL 学到的策略优于固定规则
10.5 水分
- 奖励信号定义高度任务依赖
- 跨任务泛化未充分测
- 训练 PPO 本身 cost 高
10.6 30 秒 takeaway
D-MEM = RL trigger 这条新方向的代表。真正未充分探索;如果要做 PhD 选题,这是 OP(开放问题)之一。
11. Selective Memory(2026)—— write-time gating + hierarchical archiving
11.1 基本信息
- arXiv:2603.15994
11.2 动机
“系统化研究’选择性写入’:把 gating 做成可证伪命题(不是 vague 的 ‘selective’)+ archiving 做分层。“
11.3 机制
write-time gate(多信号融合)+ archive 时按重要性分层。
11.4 数据 / 宣称
“selective” 优于”全写”
11.5 水分
- gating 阈值的 sensitivity sweep 缺位
- archive 分层 hyperparameter 多
11.6 30 秒 takeaway
Selective Memory = 与本模块审计视角最契合的工作——它把”selective”当可证伪命题来做,是 G3 时代少见的方法论自觉。
12. 11 系统横向对比矩阵
| # | 系统 | Write | Read | Build cost | Paired | 开源 | 研究价值 | 工程价值 |
|---|---|---|---|---|---|---|---|---|
| 1 | Mem0 | input | retrieval | 中 | ❌ | ✅ | 中 | ⭐⭐⭐ |
| 2 | A-Mem | output | gen-on-read | 高(1.26M) | ❌ | ✅ | ⭐⭐⭐ | 中 |
| 3 | MemoryOS | scheduled | adaptive | 中高(669K) | ❌ | ✅ | ⭐⭐ | ⭐⭐ |
| 4 | LightMem | scheduled+thresh | retrieval | 低 | ❌ | ⭐ | ⭐⭐ | ⭐⭐⭐ |
| 5 | EMem | input-gated | retrieval | 低 | ❌ | ❓ | ⭐⭐⭐ | ⭐⭐ |
| 6 | Memori | output | adaptive | 中 | ❌ | ❌ | ⭐ | ⭐⭐ |
| 7 | LiCoMemory | input | retrieval | 极低 | ❌ | ❓ | ⭐ | ⭐⭐ |
| 8 | Nemori | output+refl | gen-on-read | 中 | ❌ | ⭐ | ⭐⭐ | ⭐ |
| 9 | SimpleMem | input | retrieval | 极低 | ⭐ | ✅ | ⭐⭐⭐ | ⭐⭐ |
| 10 | D-MEM | RL | adaptive | 高(RL) | ❌ | ⭐ | ⭐⭐⭐ | ⭐ |
| 11 | Selective | hybrid | adaptive | 中 | ⭐ | ❓ | ⭐⭐⭐ | ⭐ |
🌟 核心观察:11 系统全部缺 paired McNemar against zero-build retrieval——这正是本模块作者论文和 Anatomy 在 fix 的方法论缺陷。
✅ 自我检验清单
- 能为 11 系统中任意 1 个在白板上 5 分钟讲清机制
- 能为 11 系统排出”代码可读性 / 工程价值 / 研究价值”三档
- 能讲出每篇与 G1 哪个奠基论文有传承关系
- 能为每篇指出”论文宣称 vs 真实水分”的具体差距
- 能识别 2 个尚未被任何系统占据的 atlas cell(与模块十九 Ch2 §3 对接)
- 能为自己的 ARR 论文挑出 3 个必对比的 SOTA baseline
- 能说出为什么 SimpleMem 应该是 G3 必备对比基线
📚 参考资料
概念入门
- 模块十九 第 2 章 §4 atlas 卡片 —— 11 系统的 200 字快查版
- 本路线第 1 章 —— 论文地图视角
关键论文(本章 11 篇主角)
- Mem0:arXiv 2504.19413
- A-Mem(NeurIPS 2025):arXiv 2502.12110
- MemoryOS(EMNLP 2025 Oral):arXiv 2506.06326
- LightMem(ICLR 2026):arXiv 2510.18866
- EMem:arXiv 2511.17208
- Memori:arXiv 2603.19935
- LiCoMemory:arXiv 2511.01448
- Nemori:arXiv 2508.03341
- SimpleMem:arXiv 2601.02553
- D-MEM:arXiv 2603.14597
- Selective Memory:arXiv 2603.15994
行业讨论
- OpenReview NeurIPS 2025 / ICLR 2026 / EMNLP 2025 上述 11 系统的公开 review
框架文档(如适用)
- mem0ai/mem0 GitHub —— Mem0
- wujiangxu/A-Mem GitHub —— A-Mem
- BAI-LAB/MemoryOS GitHub —— MemoryOS