跳到主要内容
Agent Memory 实证审计与负结果方法论

第2章:Agent Memory 三年演进与 11 系统 atlas——把所有相关工作摊在一张表上

从 2023 MemGPT 的 OS 类比到 2026 D-MEM 的奖励驱动门控,三代 Agent Memory 的演进脉络;2 轴分类法 (write-trigger × read-behavior) 的提出动机;11 个 SOTA 系统的代码级精读 (动机/机制/宣称/落点);5 个真正未解决的开放问题;从 leaderboard 到 preregistered 的方法论演进

Agent Memory 演进 atlas MemGPT Mem0 A-Mem MemoryOS LightMem Memori 开放问题

打开 arXiv 输入 “agent memory” 关键词,2024-2026 这两年冒出 30 多篇号称”agentic memory”的系统论文。每篇都用一句”以前的 Memory 是 X 的,我们是 Y 的”开篇,读者读完十篇,脑子里只剩一团模糊的”动态、selective、自主写、cognitive-inspired”等模糊形容词。本章把这团模糊拆开:先按时间线把三代演进讲清,再用 write-trigger × read-behavior 两轴把 11 个代表性系统逐一摊开(每个给”真实代码做了什么、论文宣称的是什么、真实评测有多少水分”的对照),最后回答一个真正重要的问题:抛开营销词,这条赛道还有哪 5 个未解决的开放问题?

📑 目录


1. 三代 Agent Memory:从外部 RAG 到 agentic 自主写

把 2023-2026 这条线压缩成 3 代(按”谁来决定写什么、什么时候写”为主轴):

代次时段写决策权代表工作核心贡献
G1:外部 RAG 时代2020-2023 上半完全外部(开发者写规则)朴素 RAG、LangChain ConversationBufferMemory”把对话历史 + 检索结果塞进 prompt”
G2:结构化 Memory2023 下半-2024半外部 / 半 LLMMemGPT、Generative Agents、HippoRAG、MemoryBank把 memory 拆成层级 / 节点 / 时间索引;LLM 调用工具自我编辑
G3:Agentic 自主写2025-2026完全 LLMMem0、A-Mem、MemoryOS、LightMem、EMem、Memori、LiCoMemory、Nemori、SimpleMem、D-MEM、Selective MemoryLLM 自己决定何时写、写什么、何时合并/遗忘

🍎 直觉:G1 是图书管理员把书插好,你来翻索引;G2 是图书管理员把书按学科分库;G3 是图书管理员自己读所有人的对话自己决定哪些值得写下来

🌟 本模块审计的对象主要是 G3——因为正是这一代喊得最响、SOTA 数字最魔幻、可比性最差。

1.1 三代各自踩中的真实问题

代次解决了什么真问题引入了什么新问题
G1”上下文窗口不够用”上下文写什么完全靠开发者拍脑袋
G2”把规则交给 LLM 部分自动化”评测变得不可比;structure 引入大量 hyperparameter
G3”彻底自动化写决策”build phase 成本爆炸;oracle 路由难发现;paired 评测纪律松弛

🧠 核心洞察:每代解决的”真问题”都是上一代没解决的;每代引入的”新问题”都是下一代要面对的。G3 引入的方法论问题(不可比、cost、oracle)在 2026 年已成为这个方向的瓶颈——这正是本模块的核心使命。


2. 演进时间线:12 个里程碑

按出版时间排,每篇给”它解决了什么、它的弱点在哪、它给本模块贡献了什么”。

2.1 G1 → G2 过渡(2023)

🎯 MemGPT(2023.10)—— OS 隐喻的奠基者

  • 解决:上下文窗口的”虚拟内存”层级;首次提出 LLM 用 function-call 自我编辑 memory
  • 弱点:Function-calling 成功率严重依赖 base LLM;仅在 GPT-4 上跑通;写策略仍是”用户/系统提示驱动”,不是真正的 agentic 自主
  • 本模块贡献:让”Memory 是有层级的工程对象”成为共识;后续 G3 系统几乎都默认 Long/Short 双层

🎯 Generative Agents(2023.04)

  • 解决:episodic memory + reflection + planning 三件套,首次完整跑通”AI town”小镇
  • 弱点:评测靠人类观察”生活合理性”,不是 long-term task QA accuracy
  • 本模块贡献:reflection trigger(输出后周期性反思)成为后续大量系统的标配

2.2 G2 中段(2024)

🎯 LongMemEval(2024.10, ICLR’25)⭐

  • 解决:第一个被广泛接受的 long-term memory benchmark(500 题、6 类能力、~115K token 干扰)
  • 弱点:单查询/单 conversation,cache reuse 结构上不可能;question_type 标签可被 oracle 滥用
  • 本模块贡献:本模块 H1a 的事实战场;第 1 章 Pareto 图横坐标的来源

🎯 LoCoMo(2024.02)

  • 解决:多查询、长对话、跨 session 时间推理;填补 LongMemEval 的”单查询”空白
  • 弱点:绝对 F1 在不同论文里跑出 24%-82% 极端不可比;judge 实现差异巨大
  • 本模块贡献:H1b 的事实战场;多查询缓存复用率 >70% 数据来自这里

🎯 HippoRAG / MemoryBank / ReadAgent(2024)

  • 解决:分别用海马体类比(HippoRAG)、Ebbinghaus 衰减(MemoryBank)、文档分页(ReadAgent)丰富 memory 子结构
  • 弱点:每个都引入大量 hyperparameter,paired evaluation 缺位
  • 本模块贡献:让”cognitive-inspired”成为主流叙事 hook,但实际 ablation 通常薄弱

2.3 G3 爆发(2025)

🎯 Mem0(2025.04)⭐

  • 解决:production-ready 的 fact-extraction + update + delete 完整管线;提供商业 API
  • 机制:LLM extract facts → semantic dedup → update or insert
  • 宣称:在 LongMemEval 上 acc +10pp 以上、token 节省 90%
  • 真实评测水分:baseline 是 OpenAI memory(公认弱),不是 hybrid retrieval;judge 是自家
  • atlas 落点:input-driven write(每次对话后必写),retrieval-only read

🎯 A-Mem(2025.02, NeurIPS’25)

  • 解决:第一个真正”agentic”的写决策——LLM 决定每条 fact 是否值得写,是否合并
  • 机制:基于 ZettelKasten 知识链接,fact 之间形成 graph
  • 弱点:build token 成本 1.26M / conversation(对比 zero-build 0),收益 / 成本比极差
  • atlas 落点:output-driven write(每个回答后判断),retrieval-only read

🎯 MemoryOS(2025.06, EMNLP Oral)

  • 解决:把 memory 视为”操作系统”——分页、淘汰、context window 管理类比 virtual memory
  • 机制:分 short-term / mid-term / long-term 三层,FIFO + LRU 淘汰
  • 弱点:build token 669K / conversation;与简化版 hybrid retrieval 相比提升不显著
  • atlas 落点:scheduled write(按 buffer 满),retrieval-only read

🎯 LightMem(2026 ICLR, 2025.10 上线)

  • 解决:deferred extraction——short-term buffer 满 512 token 才触发抽取,号称 117× token 节省
  • 机制:Atkinson-Shiffrin 三层 + sleep-time consolidation
  • 弱点:117× 节省的对比基线是”每对话都全 extract”,不是 zero-build retrieval
  • atlas 落点:scheduled + threshold write,retrieval-only read

🎯 EMem(2025.11)

  • 解决:把 trigger 简化到极致——“semantic density gating”,低信息密度对话直接跳过 extraction
  • 弱点:density 阈值是 dataset-tuned hyperparameter
  • atlas 落点:input-driven gated write,retrieval-only read

2.4 G3 续集(2026)

🎯 Memori(2026)

  • 机制:persistent memory layer + context-aware retrieval
  • 真实评测:在 LoCoMo 上报告 F1 81.95%,对应论文里的 Pareto 右上角
  • 争议:未充分公开 retrieval pipeline 强度;与 zero-build retrieval 的 paired 缺失
  • atlas 落点:output-driven write,adaptive read

🎯 LiCoMemory(2025.11)

  • 机制:lightweight + cognitive,强调能在 edge 设备跑
  • 弱点:未与同 backbone 的 Mem0/A-Mem paired
  • atlas 落点:input-driven write,retrieval-only read

🎯 Nemori(2025.08)

  • 机制:self-organizing memory,按认知科学的”组块化”原则自组织
  • atlas 落点:output-driven write + reflection,generative-on-read

🎯 SimpleMem(2026)

  • 机制:极简 baseline——只做 chunk + dedup,不做 LLM extract
  • 价值:作为 G3 阵营自带的”诚实 baseline”,非常重要

🎯 D-MEM(2026)

  • 机制:dopamine-gated routing——RL 奖励预测误差控制写决策
  • 创新:第一次把 RL 引入 memory write trigger
  • 弱点:奖励信号定义本身高度任务依赖

🎯 Selective Memory(2026)

  • 机制:write-time gating + hierarchical archiving
  • 价值:与本模块审计视角最契合,把”selective”当成可证伪命题来设计

🌟 时间线一句话:3 年 12 个里程碑,但真正改变方法论的是 LongMemEval / LoCoMo(让评测可标准化)和 Diagnosing Retrieval vs Utilization(让”retrieval 解释 20pp、write strategy 解释 3-8pp”成为审计共识)。


3. 2 轴分类法:write-trigger × read-behavior

把上面所有系统摊在一张 2D 表上,先讲 2 轴的定义。

3.1 Write-Trigger 轴(4 + 1 类)

类型触发条件代表
input-driven每接收一段用户/agent 输入就写(无条件)Mem0、LiCoMemory、EMem(gated 版)
output-driven每生成一段回答后写A-Mem、Memori、Nemori
failure-driven仅在 retrieval 置信度低 / 任务失败时写本模块作者论文的 H1(被证伪)
scheduled按 buffer 满 / 时间窗 / token 数LightMem、MemoryOS
hybrid / RL多信号融合或 RL 学习触发D-MEM、Selective Memory

“oracle write” 是隐藏的第 6 类:作者用 benchmark 提供的标签(如 question_type)决定写策略——不是真正的 agentic,但论文里常被包装成”adaptive”。

3.2 Read-Behavior 轴(3 类)

类型行为代表
retrieval-only把 memory 当 RAG 库,top-K 取出塞 prompt大多数 G3 系统
adaptive retrieval多 channel 自适应路由(如 fact / episode / temporal 各自检索)MemoryOS、Memori
generative-on-read检索后再用 LLM 生成 / 改写 / 综合一次A-Mem、Nemori、本模块 H1 的 C3/C4/C5

3.3 一张矩阵表

retrieval-onlyadaptivegenerative-on-read
input-drivenMem0、LiCoMemory、SimpleMem、EMem(空)(空)
output-driven(空)MemoriA-Mem、Nemori
failure-driven(空)(空)本模块 H1(被证伪)
scheduledLightMem、MemoryOS(部分)MemoryOS(部分)(空)
hybrid / RL(空)D-MEMSelective Memory

🧠 核心洞察:12 个候选格子里,有 6 个完全空白——这不是因为它们没价值,而是没人系统化测过。比如 input-driven × generative-on-read(每输入都触发 + 每读都生成)成本看起来很高,但没人做过 paired 评测说它一定差。这本身就是本模块的研究 backlog。


4. 11 系统 atlas(代码级精读)

每系统给一份统一 schema 的精读卡:

名称 / 时间 / 出版 / GitHub
├─ 一句话动机
├─ write-trigger 落点
├─ read-behavior 落点
├─ 关键代码位置(实际函数名)
├─ 论文宣称的提升
├─ 真实评测里的水分(baseline / judge / oracle)
└─ 对本模块审计的 takeaway

4.1 Mem0(2025.04)

字段内容
出版arXiv 2504.19413
一句话动机”把研究界的 fact-extract / update / delete 落到生产 API”
write-triggerinput-driven —— 每次 add() 调用必写
read-behaviorretrieval-only —— FAISS top-K + 简单 rerank
关键代码mem0/memory/main.py:add(), _extract_facts()
论文宣称LongMemEval acc +10pp,token 节省 90%
水分baseline 是 OpenAI Memory(已知弱);judge 自家实现
takeaway工程价值高,研究价值需 paired 重测

4.2 A-Mem(2025.02, NeurIPS’25)

字段内容
出版arXiv 2502.12110
一句话动机”Zettelkasten 风格的 fact graph,让 memory 之间自动 link”
write-triggeroutput-driven —— 每次 LLM 回答后判断
read-behaviorgenerative-on-read —— graph 检索后 LLM 综合
关键代码agentic_memory/memory_system.py
论文宣称在 LongMemEval 多个 ability 类上 SOTA
水分build token 成本 1.26M / conversation;未与等成本 retrieval-only 对比
takeaway创新真实,但成本-效益悬而未决

4.3 MemoryOS(2025.06, EMNLP Oral)

字段内容
出版arXiv 2506.06326
一句话动机”把 memory 设计当 OS 设计——分页、淘汰、内核态”
write-triggerscheduled —— buffer 满触发
read-behavioradaptive —— short / mid / long term 各自检索
关键代码memoryos/short_term.py, mid_term.py, long_term.py
论文宣称跨多 benchmark SOTA
水分build token 669K / conversation;oracle question_type 路由可疑
takeawayOS 隐喻好读,但实际 hyperparameter(buffer 大小、淘汰策略)密度极高

4.4 LightMem(2026 ICLR)

字段内容
出版arXiv 2510.18866
一句话动机”117× token 节省——抽取延迟到 buffer 满 512 token”
write-triggerscheduled + threshold
read-behaviorretrieval-only
关键代码lightmem/sensory_buffer.py, consolidation.py
论文宣称117× token 节省、accuracy 持平或优
水分117× 是相对”每对话全 extract”,不是 zero-build
takeaway工程优化清晰;研究价值在”延迟抽取”这个被证实的杠杆

4.5 EMem(2025.11)

字段内容
出版arXiv 2511.17208
一句话动机”极简 baseline + density gating”
write-triggerinput-driven gated
read-behaviorretrieval-only
关键代码emem/density_gate.py
论文宣称在 long-term conversational memory 上的 strong baseline
水分density 阈值是 dataset-tuned
takeaway”强 baseline 论文”应得到更多关注,给后续 paired 提供锚点

4.6 Memori(2026)

字段内容
出版arXiv 2603.19935
一句话动机”持久化 memory layer + context-aware retrieval”
write-triggeroutput-driven
read-behavioradaptive
关键代码repo 未完全开源
论文宣称LoCoMo F1 81.95%
水分retrieval pipeline 强度未充分披露;与 zero-build paired 缺失
takeawayLoCoMo 上”绝对 F1 高位”的代表,但可比性需独立验证

4.7 LiCoMemory(2025.11)

字段内容
出版arXiv 2511.01448
一句话动机”Lightweight + Cognitive,跑得起 edge”
write-triggerinput-driven
read-behaviorretrieval-only
论文宣称在低算力下 SOTA-level memory
水分未与同 backbone 的 Mem0/A-Mem paired
takeaway”成本约束”维度有研究空间,但 paired 评测缺位

4.8 Nemori(2025.08)

字段内容
出版arXiv 2508.03341
一句话动机”self-organizing 组块化 memory”
write-triggeroutput-driven + reflection
read-behaviorgenerative-on-read
论文宣称长对话上自组织优于固定结构
水分自组织参数未公开
takeawayreflection trigger 这条线还没被严格证伪过

4.9 SimpleMem(2026)

字段内容
出版arXiv 2601.02553
一句话动机”如果朴素方案够用,为什么要搞复杂?“
write-triggerinput-driven —— 极简 chunk + dedup
read-behaviorretrieval-only
论文宣称”非常简单”也能接近 SOTA
水分极小(这就是它的价值)
takeaway本模块作者建议把它当成 G3 阵营的”内置 strong baseline”

4.10 D-MEM(2026)

字段内容
出版arXiv 2603.14597
一句话动机”用多巴胺奖励预测误差控制写决策”
write-triggerhybrid / RL
read-behavioradaptive
论文宣称RL 学到的写策略优于固定规则
水分奖励信号定义任务依赖;跨任务泛化未充分测
takeawayRL trigger 是真正未充分探索的方向

4.11 Selective Memory(2026)

字段内容
出版arXiv 2603.15994
一句话动机”write-time gating + hierarchical archiving”
write-triggerhybrid
read-behavioradaptive
论文宣称”selective” 优于”全写”
水分gating 阈值的 sensitivity sweep 缺位
takeaway与本模块审计视角最契合,但 sensitivity 分析仍需补

5. “创新词汇表”翻译——把营销词翻成可证伪命题

读 G3 论文时,下面这张翻译表能让你 30 秒看穿一篇论文真正的工程主张:

营销词翻成可证伪形式怎么测
”agentic memory”写决策由 LLM 而非外部规则做关掉 LLM 写决策,看 acc 是否下降
”adaptive retrieval”多 channel 路由关掉路由用单 channel,看 acc 差距
”selective writing”部分输入跳过写写率 = 100% vs 当前比例的 paired
”self-organizing”结构动态变化锁定固定结构 vs 动态,paired
”cognitive-inspired”借用了某个心理学概念不是命题;忽略,看下面三栏
”lightweight”build token / latency 低报绝对数字,不要相对节省
”scalable”在 N×N 大小数据上仍 OK给 cumulative-effect plot
”production-ready”有商用 API、SLA、错误恢复不是研究命题,是工程命题

审计提示:一篇论文的”创新词”占了 abstract 80% 但翻成可证伪形式后只剩 1-2 条 → 那 1-2 条才是真正的科学主张,paired 评测应该围绕它们。


6. 5 个真正未解决的开放问题

抛开”我们提出了 XXX”的营销层,这条赛道还有哪些真正没解决的问题?

6.1 OP1:构造杠杆的真实上限是多少

🌟 现状:跨论文 Pareto 拟合显示 build token 162× → +3.6 pp,控制混杂后边际可能接近 0;但控制混杂的 paired-internal 测试还没人系统跑过

真正的研究问题:在固定 retrieval pipeline、固定 judge、零 oracle 的前提下,最聪明的 G3 系统相对 zero-build 能挤出多少 pp?已有零星数据(本模块作者论文 4 backbone × 6 condition)显示在 failure-triggered + LLM-extracted 这一族上是 0;其他族(input-driven + retrieval-only、scheduled + adaptive)尚未系统测。

6.2 OP2:retrieval × write 的耦合是单调的吗

现状:Diagnosing Retrieval vs Utilization 论文显示在 weak retrieval + LLM extract 的组合上,extract 提升 ~3-8 pp;但没人测过 strong retrieval 上 extract 还能不能提升

真正的研究问题:是否存在一个 retrieval 强度阈值,超过它后 write strategy 完全退化?本模块作者论文上 bge-large + RRF 已经是这种情况——这是个 anecdote,需要系统化的 retrieval × write 二维 sweep。

6.3 OP3:长 conversation 下”信息坍塌”是不是物理瓶颈

现状:LoCoMo 上多数 G3 系统的 cache 命中率 >70%,但每次命中带来的 marginal acc 提升微乎其微(本模块 H1b:+0.00 pp on binary)。

直觉假设:当 conversation 足够长,所有”局部 LLM-extracted artifact”都因为 information density 低而坍塌成 noise。这是物理瓶颈还是工程问题? 需要正面测:随 conversation 长度变化的 marginal acc 曲线。

6.4 OP4:Backbone 之间的 trigger primitive 转移性

现状:本模块作者 4 backbone H1a 显示方向一致 null;但正向 trigger 在不同 backbone 上是否转移没有公开数据。

真正的研究问题:D-MEM 的 RL trigger 在 GPT-4 上学的策略,迁移到 Llama-3 上是否仍有效?这关系到”agentic memory”本身的可移植性。

6.5 OP5:Memory 评测应当 paired 还是 task-level

现状:所有现有 benchmark(LongMemEval / LoCoMo / MemBench / MEMTRACK)都是 question-level pairing;但 agent 实际用 memory 是 task-level(执行多步 task 中查询多次)。

真正的研究问题:question-level 显著的 trigger 是否在 task-level 失效?反之亦然?目前只有 LoCoMo 多查询是 task-level 的近似,且数据极少。

🧠 总观察:5 个开放问题里,前 4 个都需要”严格的 paired 实证”才能推进——也就是本模块第 4-5 章要交付的工具链。这就是为什么”实证审计与负结果方法论”是这条赛道当下最缺的能力。


7. 方法论演进:从 leaderboard 到 preregistered

把 Memory 评测的方法论也按时间线压一压:

时段主流做法问题
2020-2023单数字 leaderboard,比绝对 accretrieval / judge / oracle 不可比
2024 上半加 ablation 表,比 component 影响ablation 不一定 paired,p 值常缺
2024 下半出现 paired McNemar、bootstrap CIpreregistration 缺位,optional stopping 风险
2025-2026出现 preregistered + DEVIATIONS极少数论文,但正在成为 norm

本模块作者论文是少数把以下 5 件事一次性做齐的:

  1. EXPERIMENTS_PREREG.md 在跑实验前提交
  2. paired binary acc 主端点 + F1 secondary
  3. McNemar + TOST + clustered bootstrap 报齐
  4. cumulative-effect plot 防 optional stopping
  5. positive control(C+oracle, +20 pp, p=1.1e-5)

🌟 方法论一句话2026 年的 Memory 论文,没做完上面 5 件事的,reviewer 会越来越不接受。第 4-5 章会逐一交付实操模板。


8. 怎么用本章作为研究 starter pack

如果你正准备写一篇 Memory 论文(无论正向还是负向),先把本章当成 starter pack 用:

1. 看 §2 演进时间线 → 找你想"接着 X 论文做"的那篇祖父
2. 看 §4 atlas → 把你的设计落到 atlas 哪个格子
3. 看 §5 翻译表 → 把你的"创新点"翻成可证伪命题
4. 看 §6 OP1-OP5 → 找你的工作能推进哪个开放问题
5. 看 §7 方法论 → 决定要交付的 5 件证据各自怎么收
6. 跳到第 3 章把假设写成 H_i 的形式
7. 跳到第 4 章把统计三件套跑起来
8. 跳到第 5 章给自己的 negative path 加 positive control

🌟 本章一句话总结Agent Memory 这条赛道的真正前沿不在”再发明一个 trigger primitive”,而在”用严格方法论筛掉 80% 的伪 SOTA,让剩下 20% 的真贡献能被识别”——这正是本模块从第 1 章到第 8 章想交付的能力。


✅ 自我检验清单

  • 三代演进:能用 1 分钟讲清 G1 → G2 → G3 各自解决和引入的问题
  • 12 个里程碑:能任选 5 篇说出它们各自的 takeaway
  • 2 轴矩阵:能在 atlas 里指出至少 3 个空白格子并解释为什么空白
  • 代码级精读:能为 11 系统中任意 1 个,30 分钟内补全 atlas 卡片
  • 营销词翻译:能现场翻译 5 个营销词到可证伪命题
  • 5 个开放问题:能复述 OP1-OP5 并说出每个的”真正研究问题”
  • 方法论演进:能列出 2026 年合规论文应交付的 5 件证据
  • starter pack 用法:能用本章 8 步流程为自己的论文生成 Day-1 checklist

📚 参考资料

概念入门

  • Agent Memory 学习路线(模块五,前置阅读) —— Agent Memory学习路线.md:先把 Memory 是什么搞清楚
  • Anatomy of Agentic Memory(Anonymous, 2026)arXiv 2602.19320 —— 与本章互补的 empirical analysis 综述

关键论文(按 §2 时间线对应)

G1 → G2 过渡

  • MemGPT(Packer et al., 2023) —— OS 隐喻奠基
  • Generative Agents(Park et al., 2023) —— reflection trigger 起源

G2 关键 benchmark

  • LongMemEval(Wu et al., ICLR 2025)arXiv 2410.10813 —— H1a 战场
  • LoCoMo(Maharana et al., 2024)arXiv 2402.17753 —— H1b 战场
  • Diagnosing Retrieval vs Utilization(Yuan et al., 2026)arXiv 2603.02473 —— retrieval 解释 20 pp 的关键先验

G3 系统(11 篇 atlas)

并行 taxonomy 工作

  • MemOS(Li et al., 2025)arXiv 2507.03724 —— “Memory OS for AI” 并行视角
  • In Prospect and Retrospect (RMM, ACL 2025)arXiv 2503.08026 —— reflective memory management

行业讨论

  • OpenReview 评审记录 —— LongMemEval / A-Mem / Mem0 等论文的 reviewer 关切,是了解领域真实争议的最佳一手资料
  • arXiv “agent memory” 关键词周更 —— 本模块编写时的 starting set,建议每月扫一次

框架文档(如适用)

  • Mem0 GitHubmem0ai/mem0 —— 商用 API + 开源 client
  • Letta(原 MemGPT)GitHubletta-ai/letta —— G2 → G3 过渡的工程化样本
  • A-Mem GitHub:用于 §4.2 代码级精读的入口

写完本章后,第 3-7 章会把 §6 的 5 个开放问题 + §7 的 5 件证据一一展开成可操作的工具链。第 8 章是端到端实战。