🔬 Agent Memory 实证审计与负结果方法论 9 篇文章 · 8 个章节

Agent Memory 实证审计与负结果方法论

Agent Memory 实证审计与负结果方法论相关技术文档

章节目录

Agent Memory 实证审计与负结果方法论学习路线

同一个 LongMemEval-S 在不同论文里跑出 24% vs 82% 的元凶；retrieval / write strategy / judge 三层不可比性；Pareto 图揭示的 build-token 与 accuracy 弱相关；为什么「看 leaderboard 决策」在 Memory 赛道是高危行为

2 第2章：Agent Memory 三年演进与 11 系统 atlas——把所有相关工作摊在一张表上

从 2023 MemGPT 的 OS 类比到 2026 D-MEM 的奖励驱动门控，三代 Agent Memory 的演进脉络；2 轴分类法 (write-trigger × read-behavior) 的提出动机；11 个 SOTA 系统的代码级精读 (动机/机制/宣称/落点)；5 个真正未解决的开放问题；从 leaderboard 到 preregistered 的方法论演进

3 第3章：Construction Trigger Primitive 全景——把「创新」翻译成可证伪假设

6 类 trigger primitive (input-driven / output-driven / failure-driven / scheduled / hybrid / oracle) 的工作原理、典型实现、可证伪假设模板与对应的 ablation 设计；以 H1a (ephemeral failure-triggered) 与 H1b (persistent cache) 为例展示如何把营销词写成假设

4 第4章：预注册 + 配对评测三件套——TOST、McNemar、Cluster Bootstrap

EXPERIMENTS_PREREG.md 模板、DEVIATIONS.md 写法、binary acc vs F1 主端点选择、TOST 等价性检验、McNemar 配对显著性、conversation-clustered bootstrap CI、cumulative-effect plot 防 optional stopping

5 第5章：Positive Control 设计——负结果论文的反证防线 ⭐

为什么负结果论文必须有 positive control；三种典型设计：gold-answer 注入 / extractive verbatim cache / oracle evidence；C+oracle 完整代码模板；论文中如何报告 +20pp McNemar p=1.1e-5 这类结果；reviewer 角度的 positive control 价值与局限

6 第6章：Backbone 鲁棒性与跨族验证——4 LLM 族的低成本组合

为什么单 backbone 显著不等于方法论显著；4 LLM 族（Anthropic / OpenAI / DeepSeek / Qwen）的低成本组合；OpenAI 兼容代理与 USTC LLM 中转的实操；primary / secondary / tertiary / quaternary 角色分工；scope 描述的诚实写法

7 第7章：负结果论文的 5 种失败模式——避坑与诚实披露

mock-vs-prod gap、optional stopping、reversal under scaling、hidden oracle、cherry-picked baselines 五种最常见的负结果论文失败模式；每种给真实案例与对应的预防策略；含本作者一篇论文 P2 ablation 在 1-conv n=100 上 +8 pp p=0.011 但在 3-conv n=387 上反转到 -1.81 pp 的诚实记录

8 第8章：端到端实战——复现一篇 Agent Memory 负结果审计

从零跑通：环境准备 → 11 系统 atlas 化 → LongMemEval-S H1a × 4 backbone → LoCoMo H1b × 1 full + 2 sanity → C+oracle positive control → cumulative-effect plot → LaTeX 论文骨架；预算 $5、1 周时间表

Agent Memory 实证审计与负结果方法论

章节目录

搜索