Agent Memory 实证审计与负结果方法论 2026年5月10日

第2章：Agent Memory 三年演进与 11 系统 atlas——把所有相关工作摊在一张表上

从 2023 MemGPT 的 OS 类比到 2026 D-MEM 的奖励驱动门控，三代 Agent Memory 的演进脉络；2 轴分类法 (write-trigger × read-behavior) 的提出动机；11 个 SOTA 系统的代码级精读 (动机/机制/宣称/落点)；5 个真正未解决的开放问题；从 leaderboard 到 preregistered 的方法论演进

Agent Memory 演进 atlas MemGPT Mem0 A-Mem MemoryOS LightMem Memori 开放问题

打开 arXiv 输入 “agent memory” 关键词，2024-2026 这两年冒出 30 多篇号称”agentic memory”的系统论文。每篇都用一句”以前的 Memory 是 X 的，我们是 Y 的”开篇，读者读完十篇，脑子里只剩一团模糊的”动态、selective、自主写、cognitive-inspired”等模糊形容词。本章把这团模糊拆开：先按时间线把三代演进讲清，再用 write-trigger × read-behavior 两轴把 11 个代表性系统逐一摊开（每个给”真实代码做了什么、论文宣称的是什么、真实评测有多少水分”的对照），最后回答一个真正重要的问题：抛开营销词，这条赛道还有哪 5 个未解决的开放问题？

1. 三代 Agent Memory：从外部 RAG 到 agentic 自主写

把 2023-2026 这条线压缩成 3 代（按”谁来决定写什么、什么时候写”为主轴）：

代次	时段	写决策权	代表工作	核心贡献
G1：外部 RAG 时代	2020-2023 上半	完全外部（开发者写规则）	朴素 RAG、LangChain `ConversationBufferMemory`	”把对话历史 + 检索结果塞进 prompt”
G2：结构化 Memory	2023 下半-2024	半外部 / 半 LLM	MemGPT、Generative Agents、HippoRAG、MemoryBank	把 memory 拆成层级 / 节点 / 时间索引；LLM 调用工具自我编辑
G3：Agentic 自主写	2025-2026	完全 LLM	Mem0、A-Mem、MemoryOS、LightMem、EMem、Memori、LiCoMemory、Nemori、SimpleMem、D-MEM、Selective Memory	LLM 自己决定何时写、写什么、何时合并/遗忘

🍎 直觉：G1 是图书管理员把书插好，你来翻索引；G2 是图书管理员把书按学科分库；G3 是图书管理员自己读所有人的对话，自己决定哪些值得写下来。

🌟 本模块审计的对象主要是 G3——因为正是这一代喊得最响、SOTA 数字最魔幻、可比性最差。

1.1 三代各自踩中的真实问题

代次	解决了什么真问题	引入了什么新问题
G1	”上下文窗口不够用”	上下文写什么完全靠开发者拍脑袋
G2	”把规则交给 LLM 部分自动化”	评测变得不可比；structure 引入大量 hyperparameter
G3	”彻底自动化写决策”	build phase 成本爆炸；oracle 路由难发现；paired 评测纪律松弛

🧠 核心洞察：每代解决的”真问题”都是上一代没解决的；每代引入的”新问题”都是下一代要面对的。G3 引入的方法论问题（不可比、cost、oracle）在 2026 年已成为这个方向的瓶颈——这正是本模块的核心使命。

2. 演进时间线：12 个里程碑

按出版时间排，每篇给”它解决了什么、它的弱点在哪、它给本模块贡献了什么”。

2.1 G1 → G2 过渡（2023）

🎯 MemGPT（2023.10）—— OS 隐喻的奠基者

解决：上下文窗口的”虚拟内存”层级；首次提出 LLM 用 function-call 自我编辑 memory
弱点：Function-calling 成功率严重依赖 base LLM；仅在 GPT-4 上跑通；写策略仍是”用户/系统提示驱动”，不是真正的 agentic 自主
本模块贡献：让”Memory 是有层级的工程对象”成为共识；后续 G3 系统几乎都默认 Long/Short 双层

🎯 Generative Agents（2023.04）

解决：episodic memory + reflection + planning 三件套，首次完整跑通”AI town”小镇
弱点：评测靠人类观察”生活合理性”，不是 long-term task QA accuracy
本模块贡献：reflection trigger（输出后周期性反思）成为后续大量系统的标配

2.2 G2 中段（2024）

🎯 LongMemEval（2024.10, ICLR’25）⭐

解决：第一个被广泛接受的 long-term memory benchmark（500 题、6 类能力、~115K token 干扰）
弱点：单查询/单 conversation，cache reuse 结构上不可能；question_type 标签可被 oracle 滥用
本模块贡献：本模块 H1a 的事实战场；第 1 章 Pareto 图横坐标的来源

🎯 LoCoMo（2024.02）

解决：多查询、长对话、跨 session 时间推理；填补 LongMemEval 的”单查询”空白
弱点：绝对 F1 在不同论文里跑出 24%-82% 极端不可比；judge 实现差异巨大
本模块贡献：H1b 的事实战场；多查询缓存复用率 >70% 数据来自这里

🎯 HippoRAG / MemoryBank / ReadAgent（2024）

解决：分别用海马体类比（HippoRAG）、Ebbinghaus 衰减（MemoryBank）、文档分页（ReadAgent）丰富 memory 子结构
弱点：每个都引入大量 hyperparameter，paired evaluation 缺位
本模块贡献：让”cognitive-inspired”成为主流叙事 hook，但实际 ablation 通常薄弱

2.3 G3 爆发（2025）

🎯 Mem0（2025.04）⭐

解决：production-ready 的 fact-extraction + update + delete 完整管线；提供商业 API
机制：LLM extract facts → semantic dedup → update or insert
宣称：在 LongMemEval 上 acc +10pp 以上、token 节省 90%
真实评测水分：baseline 是 OpenAI memory（公认弱），不是 hybrid retrieval；judge 是自家
atlas 落点：input-driven write（每次对话后必写），retrieval-only read

🎯 A-Mem（2025.02, NeurIPS’25）

解决：第一个真正”agentic”的写决策——LLM 决定每条 fact 是否值得写，是否合并
机制：基于 ZettelKasten 知识链接，fact 之间形成 graph
弱点：build token 成本 1.26M / conversation（对比 zero-build 0），收益 / 成本比极差
atlas 落点：output-driven write（每个回答后判断），retrieval-only read

🎯 MemoryOS（2025.06, EMNLP Oral）

解决：把 memory 视为”操作系统”——分页、淘汰、context window 管理类比 virtual memory
机制：分 short-term / mid-term / long-term 三层，FIFO + LRU 淘汰
弱点：build token 669K / conversation；与简化版 hybrid retrieval 相比提升不显著
atlas 落点：scheduled write（按 buffer 满），retrieval-only read

🎯 LightMem（2026 ICLR, 2025.10 上线）

解决：deferred extraction——short-term buffer 满 512 token 才触发抽取，号称 117× token 节省
机制：Atkinson-Shiffrin 三层 + sleep-time consolidation
弱点：117× 节省的对比基线是”每对话都全 extract”，不是 zero-build retrieval
atlas 落点：scheduled + threshold write，retrieval-only read

🎯 EMem（2025.11）

解决：把 trigger 简化到极致——“semantic density gating”，低信息密度对话直接跳过 extraction
弱点：density 阈值是 dataset-tuned hyperparameter
atlas 落点：input-driven gated write，retrieval-only read

2.4 G3 续集（2026）

🎯 Memori（2026）

机制：persistent memory layer + context-aware retrieval
真实评测：在 LoCoMo 上报告 F1 81.95%，对应论文里的 Pareto 右上角
争议：未充分公开 retrieval pipeline 强度；与 zero-build retrieval 的 paired 缺失
atlas 落点：output-driven write，adaptive read

🎯 LiCoMemory（2025.11）

机制：lightweight + cognitive，强调能在 edge 设备跑
弱点：未与同 backbone 的 Mem0/A-Mem paired
atlas 落点：input-driven write，retrieval-only read

🎯 Nemori（2025.08）

机制：self-organizing memory，按认知科学的”组块化”原则自组织
atlas 落点：output-driven write + reflection，generative-on-read

🎯 SimpleMem（2026）

机制：极简 baseline——只做 chunk + dedup，不做 LLM extract
价值：作为 G3 阵营自带的”诚实 baseline”，非常重要

🎯 D-MEM（2026）

机制：dopamine-gated routing——RL 奖励预测误差控制写决策
创新：第一次把 RL 引入 memory write trigger
弱点：奖励信号定义本身高度任务依赖

🎯 Selective Memory（2026）

机制：write-time gating + hierarchical archiving
价值：与本模块审计视角最契合，把”selective”当成可证伪命题来设计

🌟 时间线一句话：3 年 12 个里程碑，但真正改变方法论的是 LongMemEval / LoCoMo（让评测可标准化）和 Diagnosing Retrieval vs Utilization（让”retrieval 解释 20pp、write strategy 解释 3-8pp”成为审计共识）。

3. 2 轴分类法：write-trigger × read-behavior

把上面所有系统摊在一张 2D 表上，先讲 2 轴的定义。

3.1 Write-Trigger 轴（4 + 1 类）

类型	触发条件	代表
input-driven	每接收一段用户/agent 输入就写（无条件）	Mem0、LiCoMemory、EMem（gated 版）
output-driven	每生成一段回答后写	A-Mem、Memori、Nemori
failure-driven	仅在 retrieval 置信度低 / 任务失败时写	本模块作者论文的 H1（被证伪）
scheduled	按 buffer 满 / 时间窗 / token 数	LightMem、MemoryOS
hybrid / RL	多信号融合或 RL 学习触发	D-MEM、Selective Memory

⭕ “oracle write” 是隐藏的第 6 类：作者用 benchmark 提供的标签（如 question_type）决定写策略——不是真正的 agentic，但论文里常被包装成”adaptive”。

3.2 Read-Behavior 轴（3 类）

类型	行为	代表
retrieval-only	把 memory 当 RAG 库，top-K 取出塞 prompt	大多数 G3 系统
adaptive retrieval	多 channel 自适应路由（如 fact / episode / temporal 各自检索）	MemoryOS、Memori
generative-on-read	检索后再用 LLM 生成 / 改写 / 综合一次	A-Mem、Nemori、本模块 H1 的 C3/C4/C5

3.3 一张矩阵表

	retrieval-only	adaptive	generative-on-read
input-driven	Mem0、LiCoMemory、SimpleMem、EMem	（空）	（空）
output-driven	（空）	Memori	A-Mem、Nemori
failure-driven	（空）	（空）	本模块 H1（被证伪）
scheduled	LightMem、MemoryOS（部分）	MemoryOS（部分）	（空）
hybrid / RL	（空）	D-MEM	Selective Memory

🧠 核心洞察：12 个候选格子里，有 6 个完全空白——这不是因为它们没价值，而是没人系统化测过。比如 input-driven × generative-on-read（每输入都触发 + 每读都生成）成本看起来很高，但没人做过 paired 评测说它一定差。这本身就是本模块的研究 backlog。

4. 11 系统 atlas（代码级精读）

每系统给一份统一 schema 的精读卡：

名称 / 时间 / 出版 / GitHub
├─ 一句话动机
├─ write-trigger 落点
├─ read-behavior 落点
├─ 关键代码位置（实际函数名）
├─ 论文宣称的提升
├─ 真实评测里的水分（baseline / judge / oracle）
└─ 对本模块审计的 takeaway

4.1 Mem0（2025.04）

字段	内容
出版	arXiv 2504.19413
一句话动机	”把研究界的 fact-extract / update / delete 落到生产 API”
write-trigger	input-driven —— 每次 add() 调用必写
read-behavior	retrieval-only —— FAISS top-K + 简单 rerank
关键代码	`mem0/memory/main.py:add()`, `_extract_facts()`
论文宣称	LongMemEval acc +10pp，token 节省 90%
水分	baseline 是 OpenAI Memory（已知弱）；judge 自家实现
takeaway	工程价值高，研究价值需 paired 重测

4.2 A-Mem（2025.02, NeurIPS’25）

字段	内容
出版	arXiv 2502.12110
一句话动机	”Zettelkasten 风格的 fact graph，让 memory 之间自动 link”
write-trigger	output-driven —— 每次 LLM 回答后判断
read-behavior	generative-on-read —— graph 检索后 LLM 综合
关键代码	`agentic_memory/memory_system.py`
论文宣称	在 LongMemEval 多个 ability 类上 SOTA
水分	build token 成本 1.26M / conversation；未与等成本 retrieval-only 对比
takeaway	创新真实，但成本-效益悬而未决

4.3 MemoryOS（2025.06, EMNLP Oral）

字段	内容
出版	arXiv 2506.06326
一句话动机	”把 memory 设计当 OS 设计——分页、淘汰、内核态”
write-trigger	scheduled —— buffer 满触发
read-behavior	adaptive —— short / mid / long term 各自检索
关键代码	`memoryos/short_term.py`, `mid_term.py`, `long_term.py`
论文宣称	跨多 benchmark SOTA
水分	build token 669K / conversation；oracle question_type 路由可疑
takeaway	OS 隐喻好读，但实际 hyperparameter（buffer 大小、淘汰策略）密度极高

4.4 LightMem（2026 ICLR）

字段	内容
出版	arXiv 2510.18866
一句话动机	”117× token 节省——抽取延迟到 buffer 满 512 token”
write-trigger	scheduled + threshold
read-behavior	retrieval-only
关键代码	`lightmem/sensory_buffer.py`, `consolidation.py`
论文宣称	117× token 节省、accuracy 持平或优
水分	117× 是相对”每对话全 extract”，不是 zero-build
takeaway	工程优化清晰；研究价值在”延迟抽取”这个被证实的杠杆

4.5 EMem（2025.11）

字段	内容
出版	arXiv 2511.17208
一句话动机	”极简 baseline + density gating”
write-trigger	input-driven gated
read-behavior	retrieval-only
关键代码	`emem/density_gate.py`
论文宣称	在 long-term conversational memory 上的 strong baseline
水分	density 阈值是 dataset-tuned
takeaway	”强 baseline 论文”应得到更多关注，给后续 paired 提供锚点

4.6 Memori（2026）

字段	内容
出版	arXiv 2603.19935
一句话动机	”持久化 memory layer + context-aware retrieval”
write-trigger	output-driven
read-behavior	adaptive
关键代码	repo 未完全开源
论文宣称	LoCoMo F1 81.95%
水分	retrieval pipeline 强度未充分披露；与 zero-build paired 缺失
takeaway	LoCoMo 上”绝对 F1 高位”的代表，但可比性需独立验证

4.7 LiCoMemory（2025.11）

字段	内容
出版	arXiv 2511.01448
一句话动机	”Lightweight + Cognitive，跑得起 edge”
write-trigger	input-driven
read-behavior	retrieval-only
论文宣称	在低算力下 SOTA-level memory
水分	未与同 backbone 的 Mem0/A-Mem paired
takeaway	”成本约束”维度有研究空间，但 paired 评测缺位

4.8 Nemori（2025.08）

字段	内容
出版	arXiv 2508.03341
一句话动机	”self-organizing 组块化 memory”
write-trigger	output-driven + reflection
read-behavior	generative-on-read
论文宣称	长对话上自组织优于固定结构
水分	自组织参数未公开
takeaway	reflection trigger 这条线还没被严格证伪过

4.9 SimpleMem（2026）

字段	内容
出版	arXiv 2601.02553
一句话动机	”如果朴素方案够用，为什么要搞复杂？“
write-trigger	input-driven —— 极简 chunk + dedup
read-behavior	retrieval-only
论文宣称	”非常简单”也能接近 SOTA
水分	极小（这就是它的价值）
takeaway	本模块作者建议把它当成 G3 阵营的”内置 strong baseline”

4.10 D-MEM（2026）

字段	内容
出版	arXiv 2603.14597
一句话动机	”用多巴胺奖励预测误差控制写决策”
write-trigger	hybrid / RL
read-behavior	adaptive
论文宣称	RL 学到的写策略优于固定规则
水分	奖励信号定义任务依赖；跨任务泛化未充分测
takeaway	RL trigger 是真正未充分探索的方向

4.11 Selective Memory（2026）

字段	内容
出版	arXiv 2603.15994
一句话动机	”write-time gating + hierarchical archiving”
write-trigger	hybrid
read-behavior	adaptive
论文宣称	”selective” 优于”全写”
水分	gating 阈值的 sensitivity sweep 缺位
takeaway	与本模块审计视角最契合，但 sensitivity 分析仍需补

5. “创新词汇表”翻译——把营销词翻成可证伪命题

读 G3 论文时，下面这张翻译表能让你 30 秒看穿一篇论文真正的工程主张：

营销词	翻成可证伪形式	怎么测
”agentic memory”	写决策由 LLM 而非外部规则做	关掉 LLM 写决策，看 acc 是否下降
”adaptive retrieval”	多 channel 路由	关掉路由用单 channel，看 acc 差距
”selective writing”	部分输入跳过写	写率 = 100% vs 当前比例的 paired
”self-organizing”	结构动态变化	锁定固定结构 vs 动态，paired
”cognitive-inspired”	借用了某个心理学概念	不是命题；忽略，看下面三栏
”lightweight”	build token / latency 低	报绝对数字，不要相对节省
”scalable”	在 N×N 大小数据上仍 OK	给 cumulative-effect plot
”production-ready”	有商用 API、SLA、错误恢复	不是研究命题，是工程命题

⭕ 审计提示：一篇论文的”创新词”占了 abstract 80% 但翻成可证伪形式后只剩 1-2 条 → 那 1-2 条才是真正的科学主张，paired 评测应该围绕它们。

6. 5 个真正未解决的开放问题

抛开”我们提出了 XXX”的营销层，这条赛道还有哪些真正没解决的问题？

6.1 OP1：构造杠杆的真实上限是多少

🌟 现状：跨论文 Pareto 拟合显示 build token 162× → +3.6 pp，控制混杂后边际可能接近 0；但控制混杂的 paired-internal 测试还没人系统跑过。

真正的研究问题：在固定 retrieval pipeline、固定 judge、零 oracle 的前提下，最聪明的 G3 系统相对 zero-build 能挤出多少 pp？已有零星数据（本模块作者论文 4 backbone × 6 condition）显示在 failure-triggered + LLM-extracted 这一族上是 0；其他族（input-driven + retrieval-only、scheduled + adaptive）尚未系统测。

6.2 OP2：retrieval × write 的耦合是单调的吗

现状：Diagnosing Retrieval vs Utilization 论文显示在 weak retrieval + LLM extract 的组合上，extract 提升 ~3-8 pp；但没人测过 strong retrieval 上 extract 还能不能提升。

真正的研究问题：是否存在一个 retrieval 强度阈值，超过它后 write strategy 完全退化？本模块作者论文上 bge-large + RRF 已经是这种情况——这是个 anecdote，需要系统化的 retrieval × write 二维 sweep。

6.3 OP3：长 conversation 下”信息坍塌”是不是物理瓶颈

现状：LoCoMo 上多数 G3 系统的 cache 命中率 >70%，但每次命中带来的 marginal acc 提升微乎其微（本模块 H1b：+0.00 pp on binary）。

直觉假设：当 conversation 足够长，所有”局部 LLM-extracted artifact”都因为 information density 低而坍塌成 noise。这是物理瓶颈还是工程问题？ 需要正面测：随 conversation 长度变化的 marginal acc 曲线。

6.4 OP4：Backbone 之间的 trigger primitive 转移性

现状：本模块作者 4 backbone H1a 显示方向一致 null；但正向 trigger 在不同 backbone 上是否转移没有公开数据。

真正的研究问题：D-MEM 的 RL trigger 在 GPT-4 上学的策略，迁移到 Llama-3 上是否仍有效？这关系到”agentic memory”本身的可移植性。

6.5 OP5：Memory 评测应当 paired 还是 task-level

现状：所有现有 benchmark（LongMemEval / LoCoMo / MemBench / MEMTRACK）都是 question-level pairing；但 agent 实际用 memory 是 task-level（执行多步 task 中查询多次）。

真正的研究问题：question-level 显著的 trigger 是否在 task-level 失效？反之亦然？目前只有 LoCoMo 多查询是 task-level 的近似，且数据极少。

🧠 总观察：5 个开放问题里，前 4 个都需要”严格的 paired 实证”才能推进——也就是本模块第 4-5 章要交付的工具链。这就是为什么”实证审计与负结果方法论”是这条赛道当下最缺的能力。

7. 方法论演进：从 leaderboard 到 preregistered

把 Memory 评测的方法论也按时间线压一压：

时段	主流做法	问题
2020-2023	单数字 leaderboard，比绝对 acc	retrieval / judge / oracle 不可比
2024 上半	加 ablation 表，比 component 影响	ablation 不一定 paired，p 值常缺
2024 下半	出现 paired McNemar、bootstrap CI	preregistration 缺位，optional stopping 风险
2025-2026	出现 preregistered + DEVIATIONS	极少数论文，但正在成为 norm

本模块作者论文是少数把以下 5 件事一次性做齐的：

EXPERIMENTS_PREREG.md 在跑实验前提交
paired binary acc 主端点 + F1 secondary
McNemar + TOST + clustered bootstrap 报齐
cumulative-effect plot 防 optional stopping
positive control（C+oracle, +20 pp, p=1.1e-5）

🌟 方法论一句话：2026 年的 Memory 论文，没做完上面 5 件事的，reviewer 会越来越不接受。第 4-5 章会逐一交付实操模板。

8. 怎么用本章作为研究 starter pack

如果你正准备写一篇 Memory 论文（无论正向还是负向），先把本章当成 starter pack 用：

1. 看 §2 演进时间线 → 找你想"接着 X 论文做"的那篇祖父
2. 看 §4 atlas → 把你的设计落到 atlas 哪个格子
3. 看 §5 翻译表 → 把你的"创新点"翻成可证伪命题
4. 看 §6 OP1-OP5 → 找你的工作能推进哪个开放问题
5. 看 §7 方法论 → 决定要交付的 5 件证据各自怎么收
6. 跳到第 3 章把假设写成 H_i 的形式
7. 跳到第 4 章把统计三件套跑起来
8. 跳到第 5 章给自己的 negative path 加 positive control

🌟 本章一句话总结：Agent Memory 这条赛道的真正前沿不在”再发明一个 trigger primitive”，而在”用严格方法论筛掉 80% 的伪 SOTA，让剩下 20% 的真贡献能被识别”——这正是本模块从第 1 章到第 8 章想交付的能力。

✅ 自我检验清单

三代演进：能用 1 分钟讲清 G1 → G2 → G3 各自解决和引入的问题
12 个里程碑：能任选 5 篇说出它们各自的 takeaway
2 轴矩阵：能在 atlas 里指出至少 3 个空白格子并解释为什么空白
代码级精读：能为 11 系统中任意 1 个，30 分钟内补全 atlas 卡片
营销词翻译：能现场翻译 5 个营销词到可证伪命题
5 个开放问题：能复述 OP1-OP5 并说出每个的”真正研究问题”
方法论演进：能列出 2026 年合规论文应交付的 5 件证据
starter pack 用法：能用本章 8 步流程为自己的论文生成 Day-1 checklist

📚 参考资料

概念入门

Agent Memory 学习路线（模块五，前置阅读） —— Agent Memory学习路线.md：先把 Memory 是什么搞清楚
Anatomy of Agentic Memory（Anonymous, 2026）：arXiv 2602.19320 —— 与本章互补的 empirical analysis 综述

关键论文（按 §2 时间线对应）

G1 → G2 过渡

MemGPT（Packer et al., 2023） —— OS 隐喻奠基
Generative Agents（Park et al., 2023） —— reflection trigger 起源

G2 关键 benchmark

LongMemEval（Wu et al., ICLR 2025）：arXiv 2410.10813 —— H1a 战场
LoCoMo（Maharana et al., 2024）：arXiv 2402.17753 —— H1b 战场
Diagnosing Retrieval vs Utilization（Yuan et al., 2026）：arXiv 2603.02473 —— retrieval 解释 20 pp 的关键先验

G3 系统（11 篇 atlas）

Mem0（Chhikara et al., 2025）：arXiv 2504.19413
A-Mem（Xu et al., NeurIPS 2025）：arXiv 2502.12110
MemoryOS（Kang et al., EMNLP 2025）：arXiv 2506.06326
LightMem（Fang et al., ICLR 2026）：arXiv 2510.18866
EMem（Zhou, 2025）：arXiv 2511.17208
Memori（Anonymous, 2026）：arXiv 2603.19935
LiCoMemory（Huang et al., 2025）：arXiv 2511.01448
Nemori（Nan et al., 2025）：arXiv 2508.03341
SimpleMem（Anonymous, 2026）：arXiv 2601.02553
D-MEM（Song & Xin, 2026）：arXiv 2603.14597
Selective Memory（Zahn & Chana, 2026）：arXiv 2603.15994

并行 taxonomy 工作

MemOS（Li et al., 2025）：arXiv 2507.03724 —— “Memory OS for AI” 并行视角
In Prospect and Retrospect (RMM, ACL 2025)：arXiv 2503.08026 —— reflective memory management

行业讨论

OpenReview 评审记录 —— LongMemEval / A-Mem / Mem0 等论文的 reviewer 关切，是了解领域真实争议的最佳一手资料
arXiv “agent memory” 关键词周更 —— 本模块编写时的 starting set，建议每月扫一次

框架文档（如适用）

Mem0 GitHub：mem0ai/mem0 —— 商用 API + 开源 client
Letta（原 MemGPT）GitHub：letta-ai/letta —— G2 → G3 过渡的工程化样本
A-Mem GitHub：用于 §4.2 代码级精读的入口

写完本章后，第 3-7 章会把 §6 的 5 个开放问题 + §7 的 5 件证据一一展开成可操作的工具链。第 8 章是端到端实战。

搜索