🔬 Agent Memory 实证审计与负结果方法论 9 篇文章 · 8 个章节
Agent Memory 实证审计与负结果方法论
Agent Memory 实证审计与负结果方法论相关技术文档
开始学习章节目录
同一个 LongMemEval-S 在不同论文里跑出 24% vs 82% 的元凶;retrieval / write strategy / judge 三层不可比性;Pareto 图揭示的 build-token 与 accuracy 弱相关;为什么「看 leaderboard 决策」在 Memory 赛道是高危行为
从 2023 MemGPT 的 OS 类比到 2026 D-MEM 的奖励驱动门控,三代 Agent Memory 的演进脉络;2 轴分类法 (write-trigger × read-behavior) 的提出动机;11 个 SOTA 系统的代码级精读 (动机/机制/宣称/落点);5 个真正未解决的开放问题;从 leaderboard 到 preregistered 的方法论演进
6 类 trigger primitive (input-driven / output-driven / failure-driven / scheduled / hybrid / oracle) 的工作原理、典型实现、可证伪假设模板与对应的 ablation 设计;以 H1a (ephemeral failure-triggered) 与 H1b (persistent cache) 为例展示如何把营销词写成假设
EXPERIMENTS_PREREG.md 模板、DEVIATIONS.md 写法、binary acc vs F1 主端点选择、TOST 等价性检验、McNemar 配对显著性、conversation-clustered bootstrap CI、cumulative-effect plot 防 optional stopping
为什么负结果论文必须有 positive control;三种典型设计:gold-answer 注入 / extractive verbatim cache / oracle evidence;C+oracle 完整代码模板;论文中如何报告 +20pp McNemar p=1.1e-5 这类结果;reviewer 角度的 positive control 价值与局限
为什么单 backbone 显著不等于方法论显著;4 LLM 族(Anthropic / OpenAI / DeepSeek / Qwen)的低成本组合;OpenAI 兼容代理与 USTC LLM 中转的实操;primary / secondary / tertiary / quaternary 角色分工;scope 描述的诚实写法
mock-vs-prod gap、optional stopping、reversal under scaling、hidden oracle、cherry-picked baselines 五种最常见的负结果论文失败模式;每种给真实案例与对应的预防策略;含本作者一篇论文 P2 ablation 在 1-conv n=100 上 +8 pp p=0.011 但在 3-conv n=387 上反转到 -1.81 pp 的诚实记录
从零跑通:环境准备 → 11 系统 atlas 化 → LongMemEval-S H1a × 4 backbone → LoCoMo H1b × 1 full + 2 sanity → C+oracle positive control → cumulative-effect plot → LaTeX 论文骨架;预算 $5、1 周时间表