第5章：G2/G3 SOTA 11 篇精读——Mem0 / A-Mem / MemoryOS / LightMem / EMem / Memori / LiCoMemory / Nemori / SimpleMem / D-MEM / Selective Memory

模块十九 Ch2 §4 给出了 11 系统的 200 字 atlas 卡片；本章把这些卡片扩展成 800-1500 字的深读笔记：每篇含动机、机制 ASCII 框图、write trigger / read behavior 落点、关键代码位置（精确到文件 / 函数名）、论文宣称、真实评测水分、与 G1 的传承关系、对后续工作的影响。读完本章，你能为任意 G3 系统在白板上 5 分钟讲清”它做了什么、它的水分在哪、它的代码该看哪个文件”。

📑 目录

1. Mem0（2025.04）—— production-ready 标杆
2. A-Mem（NeurIPS 2025）—— Zettelkasten fact graph
3. MemoryOS（EMNLP 2025 Oral）—— OS 隐喻延伸
4. LightMem（ICLR 2026）—— deferred extraction 117× 节省
5. EMem（2025.11）—— density gating 极简
6. Memori（2026）—— LoCoMo 81.95% F1 高点
7. LiCoMemory（2025.11）—— lightweight + cognitive
8. Nemori（2025.08）—— self-organizing 组块化
9. SimpleMem（2026）—— G3 阵营的诚实 baseline
10. D-MEM（2026）—— dopamine-gated RL trigger
11. Selective Memory（2026）—— write-time gating + hierarchical archiving
12. 11 系统横向对比矩阵
✅ 自我检验清单
📚 参考资料

1. Mem0（2025.04）—— production-ready 标杆

1.1 基本信息

arXiv：2504.19413
GitHub：mem0ai/mem0
类型：商业开源系统 + arXiv 论文

1.2 动机

“研究界把 fact-extract / update / delete 拆得太细；工业界需要一个开箱即用的 SDK：mem.add() / mem.search() 这种 RAG-friendly 接口。“

1.3 机制（ASCII 框图）

   ┌─────────────────┐
   │  user message   │
   └────────┬────────┘
            ▼
   ┌─────────────────┐
   │ LLM fact extract│   ← input-driven，每条 add() 触发
   └────────┬────────┘
            ▼
   ┌─────────────────┐
   │ semantic dedup  │   ← 与已有 facts 做相似度
   └────────┬────────┘
            ▼
        update or insert
            ▼
   ┌─────────────────┐
   │  FAISS index    │
   └─────────────────┘

1.4 关键代码

mem0/memory/main.py:add()：入口
mem0/memory/main.py:_extract_facts()：LLM 抽取
mem0/memory/main.py:search()：检索

1.5 数据 / 宣称

LongMemEval acc +10pp vs OpenAI Memory baseline
token 节省 90%

1.6 水分

baseline 是已知最弱的 OpenAI memory（不是 hybrid retrieval）
自家 judge
商业 API 部分不开源

1.7 与 G1 传承

直接继承 MemGPT 的 “存事实 + 取事实” 范式，简化掉了 MemGPT 的 OS hierarchy。

1.8 30 秒 takeaway

Mem0 = production-ready 工程化模板。研究价值需要 paired 重测；工程价值（API、SDK）显著。

2. A-Mem（NeurIPS 2025）—— Zettelkasten fact graph

2.1 基本信息

arXiv：2502.12110
GitHub：wujiangxu/A-Mem

2.2 动机

“Mem0 的 facts 是 flat 的；真正的’agentic memory’应该让 fact 之间自动建立链接（类似德国学者 Zettelkasten 卡片盒方法），retrieval 时通过链接扩散。“

2.3 机制

fact A: "user dislikes cilantro"
       │
       │ link (added by LLM after every output)
       ▼
fact B: "user prefers Italian over Mexican"
       │
       │ link
       ▼
fact C: "Italian restaurant XYZ is good"

retrieval = top-K by similarity + 1-hop link expansion

2.4 关键代码

agentic_memory/memory_system.py:add_memory()：写决策（output-driven）
agentic_memory/memory_system.py:_link()：链接生成

2.5 数据 / 宣称

LongMemEval 多 ability 类 SOTA-level
强调”emergent organization”

2.6 水分

build token 高达 1.26M / conversation
未与等成本 retrieval-only 对比
“emergent”实际是 LLM 强制链接，未必”emerge”

2.7 与 G1 传承

继承 HippoRAG 的”建索引时建立 link”思路，但用 LLM 而非 PageRank。

2.8 30 秒 takeaway

A-Mem = 真正 agentic 的 fact graph，创新真实但成本极高。“+成本 - 收益”性价比未公开。

3. MemoryOS（EMNLP 2025 Oral）—— OS 隐喻延伸

3.1 基本信息

arXiv：2506.06326
GitHub：BAI-LAB/MemoryOS

3.2 动机

“把 MemGPT 的 OS 隐喻发扬光大：4 层 hierarchy + scheduler + page-fault 工程化。“

3.3 机制

┌─────────────────────────────────┐
│  short-term (raw turns)         │  L0 ← scheduled write，buffer 满转 L1
├─────────────────────────────────┤
│  mid-term (LLM-summarized)      │  L1 ← FIFO eviction 到 L2
├─────────────────────────────────┤
│  long-term (consolidated)       │  L2 ← 永久保留
└─────────────────────────────────┘

retrieval = adaptive (short → mid → long 各自检索，融合)

3.4 关键代码

memoryos/short_term.py / mid_term.py / long_term.py：三层
memoryos/scheduler.py：调度

3.5 数据 / 宣称

跨多 benchmark SOTA-level
强调”adaptive retrieval”

3.6 水分

build token 669K / conversation（中等偏高）
adaptive routing 部分依赖 question_type，疑似 oracle
hyperparameter 密度高（每层大小都要调）

3.7 与 G1 传承

直接继承 MemGPT，加入 mid-term 中间层 + LLM 总结。

3.8 30 秒 takeaway

MemoryOS = OS 隐喻的完整工程化。是 G3 时代 “hierarchical memory” 这一支的事实参考实现。

4. LightMem（ICLR 2026）—— deferred extraction 117× 节省

4.1 基本信息

arXiv：2510.18866

4.2 动机

“A-Mem 1.26M / Mem0 1.6M token build cost 太贵；把抽取延迟到 buffer 满 512 token 才触发，可省 117×。“

4.3 机制

turn 1 ──┐
turn 2   │
turn 3   │  ← 累计 token < 512
turn 4   │     (Atkinson-Shiffrin sensory buffer)
turn 5 ──┤  ← ≥ 512 触发！
         ▼
    LLM extract once
         ▼
    short-term memory
         │
         ▼ (sleep-time consolidation)
    long-term memory

4.4 关键代码

lightmem/sensory_buffer.py:should_consolidate()
lightmem/consolidation.py:consolidate()

4.5 数据 / 宣称

117× token 节省
accuracy 持平或优

4.6 水分

117× 是对比”每对话全 extract”，不是 zero-build retrieval
与 SimpleMem 等 strong baseline 缺 paired

4.7 与 G1 传承

延续 MemoryBank 的 Atkinson-Shiffrin 三层模型 + ReadAgent 的 gist 想法。

4.8 30 秒 takeaway

LightMem = build cost 优化的真金白银。工程价值清晰；研究价值在”延迟抽取”这一个被证实有效的杠杆。

5. EMem（2025.11）—— density gating 极简

5.1 基本信息

arXiv：2511.17208

5.2 动机

“扔掉所有花哨设计，只做 density gating：低信息密度对话直接跳过 extract，看能不能成为 strong baseline。“

5.3 机制

def on_input(msg):
    if information_density(msg) < tau:
        return  # 跳过
    extract_and_store(msg)

5.4 关键代码

emem/density_gate.py:should_extract()

5.5 数据 / 宣称

“long-term conversational memory 上的 strong baseline”
简单但有效

5.6 水分

density 阈值是 dataset-tuned hyperparameter
跨 dataset 不可移植

5.7 30 秒 takeaway

EMem = strong baseline 论文。给”复杂 G3 是否真的优于简单门控”提供锚点；与 SimpleMem 并列为 G3 阵营的”诚实下界”。

6. Memori（2026）—— LoCoMo 81.95% F1 高点

6.1 基本信息

arXiv：2603.19935

6.2 动机

“persistent memory layer + context-aware retrieval：把所有 G3 优点（output-driven write + adaptive read）打包成生产化系统。“

6.3 机制

output-driven extract
       │
       ▼
  persistent layer
       │
       ▼
  context-aware retrieval
  (query embedding + recency + importance)

6.4 数据 / 宣称

LoCoMo F1 = 81.95%（论文里报告的绝对高点）

6.5 水分

repo 未完全开源
retrieval pipeline 强度未充分披露
与 zero-build retrieval 的 paired 缺失

6.6 与 G1 传承

继承 Generative Agents 的 reflection + MemGPT 的 persistent layer。

6.7 30 秒 takeaway

Memori = LoCoMo F1 绝对高点的代表。但本模块作者论文 + Yuan’26 都暗示这个高点的可比性极差——其他实验室用同 backbone 跑 LoCoMo 拿不到这个数字。

7. LiCoMemory（2025.11）—— lightweight + cognitive

7.1 基本信息

arXiv：2511.01448

7.2 动机

“边缘设备需要 memory；让 Memory 在低算力下也能跑——lightweight 设计 + cognitive 启发。“

7.3 机制

input-driven write + retrieval-only read，但全部用小模型（embedder 与 retriever）+ 简化 prompt。

7.4 数据 / 宣称

低算力下 SOTA-level

7.5 水分

未与同 backbone 的 Mem0 / A-Mem paired
“cognitive”是叙事 hook，未对应具体可证伪机制

7.6 30 秒 takeaway

LiCoMemory = 成本约束维度的占位。如果要 deploy 到 edge，是好起点；研究价值需 paired 重测。

8. Nemori（2025.08）—— self-organizing 组块化

8.1 基本信息

arXiv：2508.03341

8.2 动机

“按认知科学的’组块化（chunking）‘原则让 memory 自组织——不预设结构，让 LLM 在反思中 emerge 出最优组织。“

8.3 机制

output-driven extract + reflection-based reorganize + generative-on-read。

8.4 数据 / 宣称

长对话上自组织优于固定结构

8.5 水分

自组织参数未公开
“自组织”实际是 LLM 强制 cluster，未必”emerge”

8.6 30 秒 takeaway

Nemori = reflection-based reorganization 的代表。reflection trigger 这条线仍未被严格证伪过，值得继续看。

9. SimpleMem（2026）—— G3 阵营的诚实 baseline

9.1 基本信息

arXiv：2601.02553

9.2 动机

“如果朴素方案够用，为什么搞复杂？只做 chunk + dedup，不做 LLM extract——看能不能匹配 G3 SOTA。“

9.3 机制

chunk every K turns
       │
       ▼
  exact-dedup
       │
       ▼
  hybrid retrieval (top-K)

无 LLM extract、无 graph、无 hierarchy。

9.4 数据 / 宣称

简单但接近 SOTA

9.5 水分

水分极小——这是它的价值。

9.6 30 秒 takeaway

SimpleMem = G3 阵营的 strong baseline。本模块作者建议把 SimpleMem 当成 G3 论文必备的对比基线——任何 G3 系统如果打不过 SimpleMem，需要解释”为什么我的复杂度合理”。

10. D-MEM（2026）—— dopamine-gated RL trigger

10.1 基本信息

arXiv：2603.14597

10.2 动机

“前所有 G3 系统的 write trigger 是 hand-designed；用 RL 学一个最优 trigger 策略——奖励信号来自 reward prediction error（多巴胺类比）。“

10.3 机制

state = [retrieval_conf, novelty, recency, ...]
       │
       ▼
  RL policy (PPO)
       │
       ▼
  action: write or skip
       │
       ▼
  reward: downstream task acc Δ

10.4 数据 / 宣称

RL 学到的策略优于固定规则

10.5 水分

奖励信号定义高度任务依赖
跨任务泛化未充分测
训练 PPO 本身 cost 高

10.6 30 秒 takeaway

D-MEM = RL trigger 这条新方向的代表。真正未充分探索；如果要做 PhD 选题，这是 OP（开放问题）之一。

11. Selective Memory（2026）—— write-time gating + hierarchical archiving

11.1 基本信息

arXiv：2603.15994

gating 阈值的 sensitivity sweep 缺位
archive 分层 hyperparameter 多

11.6 30 秒 takeaway

Selective Memory = 与本模块审计视角最契合的工作——它把”selective”当可证伪命题来做，是 G3 时代少见的方法论自觉。

12. 11 系统横向对比矩阵

#	系统	Write	Read	Build cost	Paired	开源	研究价值	工程价值
1	Mem0	input	retrieval	中	❌	✅	中	⭐⭐⭐
2	A-Mem	output	gen-on-read	高(1.26M)	❌	✅	⭐⭐⭐	中
3	MemoryOS	scheduled	adaptive	中高(669K)	❌	✅	⭐⭐	⭐⭐
4	LightMem	scheduled+thresh	retrieval	低	❌	⭐	⭐⭐	⭐⭐⭐
5	EMem	input-gated	retrieval	低	❌	❓	⭐⭐⭐	⭐⭐
6	Memori	output	adaptive	中	❌	❌	⭐	⭐⭐
7	LiCoMemory	input	retrieval	极低	❌	❓	⭐	⭐⭐
8	Nemori	output+refl	gen-on-read	中	❌	⭐	⭐⭐	⭐
9	SimpleMem	input	retrieval	极低	⭐	✅	⭐⭐⭐	⭐⭐
10	D-MEM	RL	adaptive	高(RL)	❌	⭐	⭐⭐⭐	⭐
11	Selective	hybrid	adaptive	中	⭐	❓	⭐⭐⭐	⭐

🌟 核心观察：11 系统全部缺 paired McNemar against zero-build retrieval——这正是本模块作者论文和 Anatomy 在 fix 的方法论缺陷。

✅ 自我检验清单

能为 11 系统中任意 1 个在白板上 5 分钟讲清机制
能为 11 系统排出”代码可读性 / 工程价值 / 研究价值”三档
能讲出每篇与 G1 哪个奠基论文有传承关系
能为每篇指出”论文宣称 vs 真实水分”的具体差距
能识别 2 个尚未被任何系统占据的 atlas cell（与模块十九 Ch2 §3 对接）
能为自己的 ARR 论文挑出 3 个必对比的 SOTA baseline
能说出为什么 SimpleMem 应该是 G3 必备对比基线

📚 参考资料

概念入门

模块十九第 2 章 §4 atlas 卡片 —— 11 系统的 200 字快查版
本路线第 1 章 —— 论文地图视角

关键论文（本章 11 篇主角）

Mem0：arXiv 2504.19413
A-Mem（NeurIPS 2025）：arXiv 2502.12110
MemoryOS（EMNLP 2025 Oral）：arXiv 2506.06326
LightMem（ICLR 2026）：arXiv 2510.18866
EMem：arXiv 2511.17208
Memori：arXiv 2603.19935
LiCoMemory：arXiv 2511.01448
Nemori：arXiv 2508.03341
SimpleMem：arXiv 2601.02553
D-MEM：arXiv 2603.14597
Selective Memory：arXiv 2603.15994

行业讨论

OpenReview NeurIPS 2025 / ICLR 2026 / EMNLP 2025 上述 11 系统的公开 review

框架文档（如适用）

mem0ai/mem0 GitHub —— Mem0
wujiangxu/A-Mem GitHub —— A-Mem
BAI-LAB/MemoryOS GitHub —— MemoryOS

搜索