第7章：Diagnosis 与实证类 5 篇精读——揭真相的工作

每年 Memory 赛道产出 60-100 篇正向 SOTA 论文，但只有 3-5 篇**“揭真相”工作**——它们不发明新系统，而是用严格实证拆穿主流叙事的水分。这类论文极难发（reviewer 要求高、不”性感”），但它们对领域真正推进的贡献往往比同年 50 篇正向 SOTA 加起来还大：它们重新校准了”什么算证据”。本章精读 5 篇这类工作，每篇含动机 / 实验设计 / 关键发现 / 方法论贡献 / 对后续工作的影响。读完这一章，你看 G3 论文的眼睛会变得很不一样——你会自动追问”controlled 了什么、retrieval 多强、paired 了吗、positive control 在哪”。

📑 目录

1. Yuan’26：Diagnosing Retrieval vs Utilization
2. 本模块作者论文：Cache Hits Don’t Save Agent Memory
3. Anatomy of Agentic Memory（2026.02）
4. Diagnosing RAG Hallucinations（2025）
5. Memory Forgetting Empirical Study（2025-2026）
6. Diagnosis 类论文的共同方法论范式
7. 为什么 Diagnosis 论文比 SOTA 更重要也更难发
✅ 自我检验清单
📚 参考资料

1. Yuan’26：Diagnosing Retrieval vs Utilization

1.1 基本信息

作者：Yuan, Su, Yao
时间：2026.03
arXiv：2603.02473
类型：实证 diagnostic

1.2 一句话动机

“G3 论文把’我们的方法 +X pp’归功于自己的 write strategy，但写策略 vs 检索策略 vs LLM 利用能力这三层各自贡献多少 pp，从来没人系统拆开。“

1.3 实验设计：3 write × 3 retrieve 拼图

Yuan’26 在 LoCoMo 上跑完整 3×3 矩阵——3 种 write strategy（raw chunks / fact extraction / episode summary）× 3 种 retrieval method（cosine-only / BM25-only / hybrid RRF）：

              retrieval method
              cosine  BM25  hybrid
write strat   ────────────────────
raw chunks  | 60%    62%   81%
extraction  | 64%    63%   78%
ep summary  | 62%    61%   77%

🌟 核心数据（acc 单位 %）：

维度	解释力
Retrieval method 切换	~20 pp（cosine → hybrid 给 +20 pp）
Write strategy 切换	仅 3-8 pp

Raw chunks + hybrid retrieval（零 LLM 写策略调用）达到 81.1%，匹配甚至超过 LLM-driven extraction。

1.4 方法论贡献

拆解 confound：把”我的方法好”分解到 retrieval / write 两层
强 baseline：raw + hybrid 成为 G3 时代的默认 strong baseline
比例感：让”提升 5 pp”在 20 pp retrieval 噪声面前显得无力

1.5 对后续工作的影响

本模块作者论文 全程引用 Yuan’26 为 “retrieval 主导” 的先验
Anatomy of Agentic Memory 把 Yuan’26 的 3×3 扩展到 5 × 5 + judge / oracle 维度
2026 年起，reviewer 开始默认问”你的 retrieval 是 hybrid 还是 dense-only”

1.6 批评

只测了 LoCoMo 1 个 benchmark
write strategy 只测 3 种（漏了 reflection / hierarchical 等）
未做 paired McNemar（只报 mean acc）

1.7 30 秒 takeaway

Retrieval 解释 ~20 pp，write strategy 仅 3-8 pp。这一行数据让”agentic memory 通过自己写更聪明 fact 来提升”的整套叙事打了一个大问号。读所有 G3 论文前先把这一行刻进脑子。

2. 本模块作者论文：Cache Hits Don’t Save Agent Memory

2.1 基本信息

作者：本模块作者
时间：2026.05（投稿 ARR）
类型：实证 critique + mechanism atlas + negative result
状态：含完整开源代码 + EXPERIMENTS_PREREG.md + DEVIATIONS.md

2.2 一句话动机

“在 G3 时代’output-driven failure-triggered + persistent cache’这一族 trigger primitive 是否真的提升性能？我们用 4 LLM × 6 条件 × paired 预注册严格测一次。“

2.3 实验设计

4 backbone (Anthropic / OpenAI / DeepSeek / Qwen)
×
6 conditions (C1 raw / C2 always-write / C3 ephemeral /
              C4 persistent / C5 separate-channel / C6 budget-matched)
×
2 benchmark (LongMemEval-S H1a / LoCoMo H1b)
×
1 positive control (C+oracle = inject gold answer)

2.4 关键发现

发现	数据
H1a：ephemeral failure-triggered 提升	4 backbone 全部 null，Δ ∈ [-5.21, -1.04] pp
H1b：persistent cache 提升 ephemeral	binary acc Δ = +0.00 pp，p=0.55，n=764
P2：分离通道 / budget-matched 救场	4 cache 变体聚集 2.1 pp，CI 全部跨过 0
C+oracle positive control	Δ = +20.00 pp，p=1.1e-5，n=100

🌟 核心：cache 机制本身能工作（positive control 证明），但 LLM-synthesized artifact 的信息密度不足以让 cache 在主要 benchmark 上产生正向效应。

2.5 方法论贡献

预注册三件套：EXPERIMENTS_PREREG.md + DEVIATIONS.md + cumulative-effect plot
4 backbone × 6 condition 标准化矩阵
C+oracle positive control 范式：负结果论文必备
代码级 atlas：11 系统按 write-trigger × read-behavior 分类
公开 reversal：P2 1-conv n=100 +8 pp p=0.011 → 3-conv n=387 -1.81 pp p=0.92 的诚实披露

2.6 对后续工作的影响

（写于 2026.05，预计影响）：

positive control 作为负结果论文标配
mechanism atlas 作为 G3 论文 §2 Related Work 的引用范式
4 backbone × paired 成为顶会 reviewer 默认期望

2.7 批评

LoCoMo 绝对 F1 ~24% 远低于 Memori 报告的 81.95%——作者承认是 retrieval pipeline 差异，但绝对数字仍弱
H1b 只在 1 个 backbone 全量跑
单一 trigger family（output-driven failure-triggered），未测 input-driven / scheduled

2.8 30 秒 takeaway

Cache 机制无用 + content quality 主导。结合 Yuan’26 的 retrieval 20 pp 主导，G3 论文的”我们用更聪明的 fact 提升 5 pp”叙事被严重质疑。这一篇 + Yuan’26 = 2026 年 Memory 论文审计的方法论基础。

3. Anatomy of Agentic Memory（2026.02）

3.1 基本信息

作者：Anonymous（投稿中）
arXiv：2602.19320

3.2 一句话动机

“系统化拆解 G3 论文的’30 pp 提升’到底来自哪里：retrieval / judge / oracle / paired 四个 confound 各占多少。“

3.3 实验设计：5 × 5 + confound 维度

把 5 个代表 G3 系统（Mem0 / A-Mem / MemoryOS / LightMem / EMem）放到 5 种 retrieval 强度上跑，再加 confound 维度：

同 judge vs 自家 judge
含 oracle question_type vs 关掉
paired McNemar vs unpaired mean

3.4 关键发现（同模块十九 Ch2 §2.4）

Confound	解释力
Retrieval pipeline 强度	~20 pp
Judge 实现	~5 pp
Oracle 路由	5-15 pp
Paired vs unpaired	0-10 pp（伪显著）
真实 paired-fixed Δ	≤ 3 pp

🌟 总意义：G3 论文里”30 pp 提升”在控制 4 个 confound 后只剩 ≤ 3 pp。其余 27 pp 来自方法论松弛。

3.5 方法论贡献

第一篇把”benchmark 不可比性”拆成 4 个可量化 confound 的工作
给”我应该报告什么”提供 official checklist

3.6 批评

5 系统抽样不够（11 系统全跑成本太高）
用回归拟合给出”20 pp / 5 pp / 5-15 pp”分解，不是严格因果
自身只用 1 backbone

3.7 30 秒 takeaway

30 pp 提升 = 20 pp retrieval + 5 pp judge + 5-15 pp oracle + 真实 ≤ 3 pp paired。把这条公式刻进脑子，读 G3 论文的”+30 pp”等于看到”真实 +3 pp，剩下 27 pp 是水”。

4. Diagnosing RAG Hallucinations（2025）

4.1 基本信息

作者：Anonymous（同领域多个工作的代表）
时间：2025
类型：RAG / Memory 边界的 critique

4.2 一句话动机

“Memory 与 RAG 共享 retrieval-then-generate pipeline；RAG 的 hallucination 病灶在 Memory 上同样存在，但 G3 论文很少正面讨论。“

4.3 关键发现

LLM 在 retrieve 到 partial / noisy chunks 时，默认 hallucinate 答案而不是说”不知道”
这种 hallucination 在 Memory 系统的 cache 中会被持久化、被反复 retrieve、形成正反馈循环
G3 系统的”cache hit rate”高（>70%）但 marginal acc 提升微弱——可能正是 hallucination 在循环

4.4 方法论贡献

把 cache 命中率与答题正确率解耦
引入”hallucination accumulation”概念

4.5 对后续工作的影响

给”为什么 cache hit rate 高但 acc 不涨”提供 mechanistic 解释候选
推动 forgetting / TTL 机制成为研究热点

4.6 30 秒 takeaway

High cache hit ≠ high acc。如果 cache 内容是 LLM-hallucinated，越复用越糟。这一发现把”agentic memory”的某些自信叙事打回原形。

5. Memory Forgetting Empirical Study（2025-2026）

5.1 基本信息

作者：多个工作合并讨论
代表：FadeMem / 各种 forgetting / TTL 实证

5.2 一句话动机

“G3 系统普遍’只写不忘’（Mem0 没有 forget；A-Mem 的 merge 不算真正 forget）。长对话下 memory 必然膨胀——这个膨胀对 acc 的影响是正还是负？“

5.3 关键发现

Memory size 超过某阈值（典型 10K facts）后，retrieval 精度下降 5-10 pp（noise 增加）
主动 forgetting 策略（基于 recency / importance）在 LoCoMo 长 session 上与无 forgetting 持平——证明 retrieval 重排已经能”软”实现 forget
真正有效的 forget 策略要在 write phase 做，不是 retrieve phase

5.4 方法论贡献

把 forgetting 从”cognitive 类比”重新定义为”工程必要性”
给”memory 大小爆炸”提供量化数据

5.5 30 秒 takeaway

不 forget 的 G3 系统在长对话上会自然衰减；主动 forget 在 retrieve 重排已存在的情况下边际收益接近 0。这意味着 forgetting 不是 G3 的下一个金矿。

6. Diagnosis 类论文的共同方法论范式

5 篇看下来，提取出 Diagnosis 类的共同方法论模板：

步骤	内容
1. 挑战一个主流叙事	”G3 提升来自 write strategy” / “cache 机制有用” / “30 pp 提升真的可比”
2. 拆解 confound	通常 3-5 个 confound 维度，做 N × M 矩阵实验
3. 严格统计	paired McNemar + clustered bootstrap + TOST + 预注册
4. 跨多 backbone 或多 benchmark	至少 2-3 个，验证发现的普适性
5. Positive control（最关键）	证明测试床能检测正向，否则结论被质疑”是不是 pipeline 弱”
6. 诚实披露所有 reversal	包括小样本与大样本反向、单 backbone 反向

🌟 范式核心：Diagnosis 不是”我做了一个新方法”，是”我做了一组严格实验，重新校准了大家信什么”。

7. 为什么 Diagnosis 论文比 SOTA 更重要也更难发

7.1 重要性

维度	SOTA 论文	Diagnosis 论文
推动领域前进	增量（+5 pp）	杠杆性（重新定义”什么算证据”）
半衰期	2-3 年（被新 SOTA 顶掉）	5+ 年（方法论本身长期有效）
教学价值	中（讲一个具体设计）	极高（讲方法论）
被引用类型	”我们对比 X"	"我们的方法论遵循 X”

7.2 难发的原因

不性感：reviewer 看”我们提升 30 pp”觉得激动，看”30 pp 其实只有 3 pp”觉得无聊
门槛高：要 paired + preregistration + positive control + 多 backbone，工作量大
被针对：写 critique 论文会被被批评的系统作者反推（“你 retrieval 弱”）
没 baseline 可对比：Diagnosis 不是为了赢，是为了揭真相，award 委员会不知道怎么评

7.3 怎么发出去

配上完整开源代码 + 预注册
配上 positive control 堵住”pipeline 弱”指控
与 mainstream 工作者对话而不是攻击（本模块作者论文 §2 Related Work 给所有 11 系统的诚实评价）
投靠 negative-result-friendly venue（ARR / NeurIPS Datasets & Benchmarks Track）

🌟 核心建议：如果你想读 PhD 第一篇论文，Diagnosis 路径比 SOTA 路径更可行——SOTA 要打过所有同期工作；Diagnosis 只要严格揭真相，目标明确得多。

✅ 自我检验清单

能讲清 Yuan’26 的 3 write × 3 retrieve 矩阵 + “retrieval 解释 20 pp、write 仅 3-8 pp”结论
能讲清本模块作者论文的 4 backbone × 6 condition + C+oracle +20 pp positive control
能讲清 Anatomy 的”30 pp = 20 + 5 + 5-15 + ≤3”分解
能讲出 Diagnosing RAG Hallucinations 的”high cache hit ≠ high acc”机制
能讲出 Forgetting 实证研究的”主动 forget 边际为 0”发现
能列出 Diagnosis 论文 6 步范式（挑战叙事 → 拆 confound → 严格统计 → 多 backbone → positive control → 披露 reversal）
能说出 Diagnosis 比 SOTA 难发但价值大的 3 个理由
能为自己计划做的工作选 Diagnosis 范式 vs SOTA 范式

📚 参考资料

概念入门

模块十九第 4-5 章方法论三件套 + Positive Control —— Diagnosis 范式的完整实操工具
模块十九第 7 章失败模式 —— Diagnosis 时撞上的常见坑

关键论文（本章 5 篇主角）

Yuan’26 Diagnosing Retrieval vs Utilization：arXiv 2603.02473
本模块作者论文 Cache Hits Don’t Save Agent Memory（2026.05 ARR）
Anatomy of Agentic Memory：arXiv 2602.19320
Diagnosing RAG Hallucinations（2025，多个 representative 工作）
Memory Forgetting Empirical Study（FadeMem 等，2025-2026）

行业讨论

OpenReview ARR Diagnosis 类论文公开评审 —— 看真实 reviewer 关切
The Garden of Forking Paths（Gelman & Loken, 2013） —— researcher degrees of freedom 经典论述

框架文档（如适用）

本模块作者论文 motivation/ 全部脚本 —— Diagnosis 范式的真实代码
EXPERIMENTS_PREREG.md / DEVIATIONS.md 模板 —— 模块十九 Ch4 提供

搜索