第7章:Diagnosis 与实证类 5 篇精读——揭真相的工作
5 篇「揭真相」工作精读:Yuan'26 Diagnosing Retrieval vs Utilization、本模块作者论文 Cache Hits Don't Save、Anatomy of Agentic Memory、Diagnosing RAG Hallucinations、Memory Forgetting Empirical Study;这些论文不发明新系统,但用严格实证挑战 G3 的主流叙事
每年 Memory 赛道产出 60-100 篇正向 SOTA 论文,但只有 3-5 篇**“揭真相”工作**——它们不发明新系统,而是用严格实证拆穿主流叙事的水分。这类论文极难发(reviewer 要求高、不”性感”),但它们对领域真正推进的贡献往往比同年 50 篇正向 SOTA 加起来还大:它们重新校准了”什么算证据”。本章精读 5 篇这类工作,每篇含动机 / 实验设计 / 关键发现 / 方法论贡献 / 对后续工作的影响。读完这一章,你看 G3 论文的眼睛会变得很不一样——你会自动追问”controlled 了什么、retrieval 多强、paired 了吗、positive control 在哪”。
📑 目录
- 1. Yuan’26:Diagnosing Retrieval vs Utilization
- 2. 本模块作者论文:Cache Hits Don’t Save Agent Memory
- 3. Anatomy of Agentic Memory(2026.02)
- 4. Diagnosing RAG Hallucinations(2025)
- 5. Memory Forgetting Empirical Study(2025-2026)
- 6. Diagnosis 类论文的共同方法论范式
- 7. 为什么 Diagnosis 论文比 SOTA 更重要也更难发
- ✅ 自我检验清单
- 📚 参考资料
1. Yuan’26:Diagnosing Retrieval vs Utilization
1.1 基本信息
- 作者:Yuan, Su, Yao
- 时间:2026.03
- arXiv:2603.02473
- 类型:实证 diagnostic
1.2 一句话动机
“G3 论文把’我们的方法 +X pp’归功于自己的 write strategy,但写策略 vs 检索策略 vs LLM 利用能力这三层各自贡献多少 pp,从来没人系统拆开。“
1.3 实验设计:3 write × 3 retrieve 拼图
Yuan’26 在 LoCoMo 上跑完整 3×3 矩阵——3 种 write strategy(raw chunks / fact extraction / episode summary)× 3 种 retrieval method(cosine-only / BM25-only / hybrid RRF):
retrieval method
cosine BM25 hybrid
write strat ────────────────────
raw chunks | 60% 62% 81%
extraction | 64% 63% 78%
ep summary | 62% 61% 77%
🌟 核心数据(acc 单位 %):
| 维度 | 解释力 |
|---|---|
| Retrieval method 切换 | ~20 pp(cosine → hybrid 给 +20 pp) |
| Write strategy 切换 | 仅 3-8 pp |
Raw chunks + hybrid retrieval(零 LLM 写策略调用)达到 81.1%,匹配甚至超过 LLM-driven extraction。
1.4 方法论贡献
- 拆解 confound:把”我的方法好”分解到 retrieval / write 两层
- 强 baseline:raw + hybrid 成为 G3 时代的默认 strong baseline
- 比例感:让”提升 5 pp”在 20 pp retrieval 噪声面前显得无力
1.5 对后续工作的影响
- 本模块作者论文 全程引用 Yuan’26 为 “retrieval 主导” 的先验
- Anatomy of Agentic Memory 把 Yuan’26 的 3×3 扩展到 5 × 5 + judge / oracle 维度
- 2026 年起,reviewer 开始默认问”你的 retrieval 是 hybrid 还是 dense-only”
1.6 批评
- 只测了 LoCoMo 1 个 benchmark
- write strategy 只测 3 种(漏了 reflection / hierarchical 等)
- 未做 paired McNemar(只报 mean acc)
1.7 30 秒 takeaway
Retrieval 解释 ~20 pp,write strategy 仅 3-8 pp。这一行数据让”agentic memory 通过自己写更聪明 fact 来提升”的整套叙事打了一个大问号。读所有 G3 论文前先把这一行刻进脑子。
2. 本模块作者论文:Cache Hits Don’t Save Agent Memory
2.1 基本信息
- 作者:本模块作者
- 时间:2026.05(投稿 ARR)
- 类型:实证 critique + mechanism atlas + negative result
- 状态:含完整开源代码 + EXPERIMENTS_PREREG.md + DEVIATIONS.md
2.2 一句话动机
“在 G3 时代’output-driven failure-triggered + persistent cache’这一族 trigger primitive 是否真的提升性能?我们用 4 LLM × 6 条件 × paired 预注册严格测一次。“
2.3 实验设计
4 backbone (Anthropic / OpenAI / DeepSeek / Qwen)
×
6 conditions (C1 raw / C2 always-write / C3 ephemeral /
C4 persistent / C5 separate-channel / C6 budget-matched)
×
2 benchmark (LongMemEval-S H1a / LoCoMo H1b)
×
1 positive control (C+oracle = inject gold answer)
2.4 关键发现
| 发现 | 数据 |
|---|---|
| H1a:ephemeral failure-triggered 提升 | 4 backbone 全部 null,Δ ∈ [-5.21, -1.04] pp |
| H1b:persistent cache 提升 ephemeral | binary acc Δ = +0.00 pp,p=0.55,n=764 |
| P2:分离通道 / budget-matched 救场 | 4 cache 变体聚集 2.1 pp,CI 全部跨过 0 |
| C+oracle positive control | Δ = +20.00 pp,p=1.1e-5,n=100 |
🌟 核心:cache 机制本身能工作(positive control 证明),但 LLM-synthesized artifact 的信息密度不足以让 cache 在主要 benchmark 上产生正向效应。
2.5 方法论贡献
- 预注册三件套:EXPERIMENTS_PREREG.md + DEVIATIONS.md + cumulative-effect plot
- 4 backbone × 6 condition 标准化矩阵
- C+oracle positive control 范式:负结果论文必备
- 代码级 atlas:11 系统按 write-trigger × read-behavior 分类
- 公开 reversal:P2 1-conv n=100 +8 pp p=0.011 → 3-conv n=387 -1.81 pp p=0.92 的诚实披露
2.6 对后续工作的影响
(写于 2026.05,预计影响):
- positive control 作为负结果论文标配
- mechanism atlas 作为 G3 论文 §2 Related Work 的引用范式
- 4 backbone × paired 成为顶会 reviewer 默认期望
2.7 批评
- LoCoMo 绝对 F1 ~24% 远低于 Memori 报告的 81.95%——作者承认是 retrieval pipeline 差异,但绝对数字仍弱
- H1b 只在 1 个 backbone 全量跑
- 单一 trigger family(output-driven failure-triggered),未测 input-driven / scheduled
2.8 30 秒 takeaway
Cache 机制无用 + content quality 主导。结合 Yuan’26 的 retrieval 20 pp 主导,G3 论文的”我们用更聪明的 fact 提升 5 pp”叙事被严重质疑。这一篇 + Yuan’26 = 2026 年 Memory 论文审计的方法论基础。
3. Anatomy of Agentic Memory(2026.02)
3.1 基本信息
- 作者:Anonymous(投稿中)
- arXiv:2602.19320
3.2 一句话动机
“系统化拆解 G3 论文的’30 pp 提升’到底来自哪里:retrieval / judge / oracle / paired 四个 confound 各占多少。“
3.3 实验设计:5 × 5 + confound 维度
把 5 个代表 G3 系统(Mem0 / A-Mem / MemoryOS / LightMem / EMem)放到 5 种 retrieval 强度上跑,再加 confound 维度:
- 同 judge vs 自家 judge
- 含 oracle question_type vs 关掉
- paired McNemar vs unpaired mean
3.4 关键发现(同模块十九 Ch2 §2.4)
| Confound | 解释力 |
|---|---|
| Retrieval pipeline 强度 | ~20 pp |
| Judge 实现 | ~5 pp |
| Oracle 路由 | 5-15 pp |
| Paired vs unpaired | 0-10 pp(伪显著) |
| 真实 paired-fixed Δ | ≤ 3 pp |
🌟 总意义:G3 论文里”30 pp 提升”在控制 4 个 confound 后只剩 ≤ 3 pp。其余 27 pp 来自方法论松弛。
3.5 方法论贡献
- 第一篇把”benchmark 不可比性”拆成 4 个可量化 confound 的工作
- 给”我应该报告什么”提供 official checklist
3.6 批评
- 5 系统抽样不够(11 系统全跑成本太高)
- 用回归拟合给出”20 pp / 5 pp / 5-15 pp”分解,不是严格因果
- 自身只用 1 backbone
3.7 30 秒 takeaway
30 pp 提升 = 20 pp retrieval + 5 pp judge + 5-15 pp oracle + 真实 ≤ 3 pp paired。把这条公式刻进脑子,读 G3 论文的”+30 pp”等于看到”真实 +3 pp,剩下 27 pp 是水”。
4. Diagnosing RAG Hallucinations(2025)
4.1 基本信息
- 作者:Anonymous(同领域多个工作的代表)
- 时间:2025
- 类型:RAG / Memory 边界的 critique
4.2 一句话动机
“Memory 与 RAG 共享 retrieval-then-generate pipeline;RAG 的 hallucination 病灶在 Memory 上同样存在,但 G3 论文很少正面讨论。“
4.3 关键发现
- LLM 在 retrieve 到 partial / noisy chunks 时,默认 hallucinate 答案而不是说”不知道”
- 这种 hallucination 在 Memory 系统的 cache 中会被持久化、被反复 retrieve、形成正反馈循环
- G3 系统的”cache hit rate”高(>70%)但 marginal acc 提升微弱——可能正是 hallucination 在循环
4.4 方法论贡献
- 把 cache 命中率与答题正确率解耦
- 引入”hallucination accumulation”概念
4.5 对后续工作的影响
- 给”为什么 cache hit rate 高但 acc 不涨”提供 mechanistic 解释候选
- 推动 forgetting / TTL 机制成为研究热点
4.6 30 秒 takeaway
High cache hit ≠ high acc。如果 cache 内容是 LLM-hallucinated,越复用越糟。这一发现把”agentic memory”的某些自信叙事打回原形。
5. Memory Forgetting Empirical Study(2025-2026)
5.1 基本信息
- 作者:多个工作合并讨论
- 代表:FadeMem / 各种 forgetting / TTL 实证
5.2 一句话动机
“G3 系统普遍’只写不忘’(Mem0 没有 forget;A-Mem 的 merge 不算真正 forget)。长对话下 memory 必然膨胀——这个膨胀对 acc 的影响是正还是负?“
5.3 关键发现
- Memory size 超过某阈值(典型 10K facts)后,retrieval 精度下降 5-10 pp(noise 增加)
- 主动 forgetting 策略(基于 recency / importance)在 LoCoMo 长 session 上与无 forgetting 持平——证明 retrieval 重排已经能”软”实现 forget
- 真正有效的 forget 策略要在 write phase 做,不是 retrieve phase
5.4 方法论贡献
- 把 forgetting 从”cognitive 类比”重新定义为”工程必要性”
- 给”memory 大小爆炸”提供量化数据
5.5 30 秒 takeaway
不 forget 的 G3 系统在长对话上会自然衰减;主动 forget 在 retrieve 重排已存在的情况下边际收益接近 0。这意味着 forgetting 不是 G3 的下一个金矿。
6. Diagnosis 类论文的共同方法论范式
5 篇看下来,提取出 Diagnosis 类的共同方法论模板:
| 步骤 | 内容 |
|---|---|
| 1. 挑战一个主流叙事 | ”G3 提升来自 write strategy” / “cache 机制有用” / “30 pp 提升真的可比” |
| 2. 拆解 confound | 通常 3-5 个 confound 维度,做 N × M 矩阵实验 |
| 3. 严格统计 | paired McNemar + clustered bootstrap + TOST + 预注册 |
| 4. 跨多 backbone 或多 benchmark | 至少 2-3 个,验证发现的普适性 |
| 5. Positive control(最关键) | 证明测试床能检测正向,否则结论被质疑”是不是 pipeline 弱” |
| 6. 诚实披露所有 reversal | 包括小样本与大样本反向、单 backbone 反向 |
🌟 范式核心:Diagnosis 不是”我做了一个新方法”,是”我做了一组严格实验,重新校准了大家信什么”。
7. 为什么 Diagnosis 论文比 SOTA 更重要也更难发
7.1 重要性
| 维度 | SOTA 论文 | Diagnosis 论文 |
|---|---|---|
| 推动领域前进 | 增量(+5 pp) | 杠杆性(重新定义”什么算证据”) |
| 半衰期 | 2-3 年(被新 SOTA 顶掉) | 5+ 年(方法论本身长期有效) |
| 教学价值 | 中(讲一个具体设计) | 极高(讲方法论) |
| 被引用类型 | ”我们对比 X" | "我们的方法论遵循 X” |
7.2 难发的原因
- 不性感:reviewer 看”我们提升 30 pp”觉得激动,看”30 pp 其实只有 3 pp”觉得无聊
- 门槛高:要 paired + preregistration + positive control + 多 backbone,工作量大
- 被针对:写 critique 论文会被被批评的系统作者反推(“你 retrieval 弱”)
- 没 baseline 可对比:Diagnosis 不是为了赢,是为了揭真相,award 委员会不知道怎么评
7.3 怎么发出去
- 配上完整开源代码 + 预注册
- 配上 positive control 堵住”pipeline 弱”指控
- 与 mainstream 工作者对话而不是攻击(本模块作者论文 §2 Related Work 给所有 11 系统的诚实评价)
- 投靠 negative-result-friendly venue(ARR / NeurIPS Datasets & Benchmarks Track)
🌟 核心建议:如果你想读 PhD 第一篇论文,Diagnosis 路径比 SOTA 路径更可行——SOTA 要打过所有同期工作;Diagnosis 只要严格揭真相,目标明确得多。
✅ 自我检验清单
- 能讲清 Yuan’26 的 3 write × 3 retrieve 矩阵 + “retrieval 解释 20 pp、write 仅 3-8 pp”结论
- 能讲清本模块作者论文的 4 backbone × 6 condition + C+oracle +20 pp positive control
- 能讲清 Anatomy 的”30 pp = 20 + 5 + 5-15 + ≤3”分解
- 能讲出 Diagnosing RAG Hallucinations 的”high cache hit ≠ high acc”机制
- 能讲出 Forgetting 实证研究的”主动 forget 边际为 0”发现
- 能列出 Diagnosis 论文 6 步范式(挑战叙事 → 拆 confound → 严格统计 → 多 backbone → positive control → 披露 reversal)
- 能说出 Diagnosis 比 SOTA 难发但价值大的 3 个理由
- 能为自己计划做的工作选 Diagnosis 范式 vs SOTA 范式
📚 参考资料
概念入门
- 模块十九 第 4-5 章 方法论三件套 + Positive Control —— Diagnosis 范式的完整实操工具
- 模块十九 第 7 章 失败模式 —— Diagnosis 时撞上的常见坑
关键论文(本章 5 篇主角)
- Yuan’26 Diagnosing Retrieval vs Utilization:arXiv 2603.02473
- 本模块作者论文 Cache Hits Don’t Save Agent Memory(2026.05 ARR)
- Anatomy of Agentic Memory:arXiv 2602.19320
- Diagnosing RAG Hallucinations(2025,多个 representative 工作)
- Memory Forgetting Empirical Study(FadeMem 等,2025-2026)
行业讨论
- OpenReview ARR Diagnosis 类论文公开评审 —— 看真实 reviewer 关切
- The Garden of Forking Paths(Gelman & Loken, 2013) —— researcher degrees of freedom 经典论述
框架文档(如适用)
- 本模块作者论文 motivation/ 全部脚本 —— Diagnosis 范式的真实代码
- EXPERIMENTS_PREREG.md / DEVIATIONS.md 模板 —— 模块十九 Ch4 提供