第8章：交叉方向——Memory × RL / Multi-Agent / Multi-Modal

主流 G3 Memory 论文聚焦”单 agent + 文本对话”，但 2025-2026 涌现一批交叉方向：把 Memory 与 RL（奖励驱动写决策）/ Multi-Agent（多 agent 共享 memory）/ Multi-Modal（视觉记忆、空间记忆）结合。这些方向在 mainstream Memory benchmark 上不一定 SOTA，但给”agentic memory 还能解决什么问题”打开新格子。本章每个方向选 2-3 篇代表论文深读，讨论与 mainstream 的方法论差异，并指明哪个方向最值得做 PhD 选题。

1. Memory × RL：奖励驱动的 write trigger

1.1 核心问题

主流 G3 系统的 write trigger 都是 hand-designed（“低置信度时写”、“buffer 满写”、“reflection 周期写”）。能不能用 RL 学一个最优 trigger 策略？

1.2 代表论文 1：D-MEM（2026）

arXiv：2603.14597

机制：reward prediction error (RPE，多巴胺类比) 控制写决策

state = [retrieval_conf, novelty, recency, task_progress]
policy(state) → write / skip
reward = downstream acc Δ

训练：PPO，从 demonstrations bootstrap
结果：在 LongMemEval 多 ability 类上比 fixed-rule trigger 提升 2-4 pp
批评：奖励信号依赖 task；跨 task 泛化未测；PPO 训练 cost 高

1.3 代表论文 2：RMM（ACL 2025）

arXiv：2503.08026
机制：reflective memory management——在每段对话末用 LLM 反思”哪些 fact 该 write、该 update、该 forget”，类似 RL 但 reward 是 LLM-judged
批评：reward 信号噪声大；LLM-judged 与 task acc 不一定一致

1.4 代表论文 3：其他奖励驱动 trigger（2025-2026 散见）

包括基于 task completion reward 的 trigger、基于 human feedback 的 trigger 等。这块仍在快速演化。

1.5 与 mainstream 的差异

维度	mainstream G3	Memory × RL
Trigger 设计	hand-designed	learned
Train cost	0（直接用 LLM）	高（PPO / bootstrapped）
泛化性	benchmark 内	跨 task 未测
评测	acc 主端点	acc + reward 信号

🌟 总评：Memory × RL 是真正未充分探索的方向。如果你想做 PhD 第一篇且不愿做 critique，这条线值得深入。

2. Memory × Multi-Agent：共享与隔离

2.1 核心问题

多个 agent 协作时，memory 怎么共享 / 隔离？

全共享 → 隐私 + 角色 confusion
全隔离 → 协作时重复工作
部分共享 → 谁有权写共享 memory？

2.2 代表论文 1：G-Memory（2025）

机制：global shared memory + per-agent private memory + 写权限 control

架构：

┌──────────────────────────────┐
│   Shared Memory (read-all,   │
│   write-by-consensus)        │
└────────┬─────────────────────┘
         │ read / propose-write
┌────────▼──────┐  ┌──────────┐
│  Agent A's    │  │ Agent B's │
│  Private      │  │ Private   │
│  Memory       │  │ Memory    │
└───────────────┘  └──────────┘

结果：在 multi-agent 协作 task 上 +6 pp

2.3 代表论文 2：Collaborative Memory（2025-2026）

机制：no shared / per-agent only，但 agent 之间通过 message 显式同步关键 fact
优势：隐私清晰
劣势：同步开销大

2.4 代表论文 3：Hindsight（2025）

arXiv：2512.12818
机制：在多 agent 系统中加入”事后 reflection”——任务结束后所有 agent 共同回看，更新各自 memory
结果：长期协作 task 上比无 hindsight 提升

2.5 与 mainstream 的差异

state space 爆炸：N agent × M memory slot = N×M 维度
隐私 / 权限新维度
协作 reward 信号比单 agent 复杂

2.6 总评

多 agent memory 还在早期。与模块七 Agentic RL + 多 agent 协作模块结合 = 真正的 frontier。

3. Memory × Multi-Modal：视觉与空间记忆

3.1 核心问题

“对话 memory 只处理文本，视觉 / 空间信息怎么进 memory？“

3.2 代表论文 1：视觉 memory（2025-2026 多个工作）

机制：image / video → CLIP-style embedding → 与文本 memory 共享 retrieval
挑战：modality 不对齐；retrieval 信号在跨 modality 上变弱
代表系统：Letta 的 multi-modal 扩展、其他视觉 memory 工作

3.3 代表论文 2：空间记忆（模块十八专门讲）

arXiv 代表：spatial memory、cognitive map、world model 系列
差异：从”事件序列”变成”空间位置 × 状态”
与对话 memory 几乎正交

3.4 代表论文 3：跨模态 retrieval 融合

把 vision encoder + text encoder + memory store 统一为一个 multi-modal retriever。

3.5 与 mainstream 的差异

modality alignment 是核心瓶颈
benchmark 极少（多模态 long-term memory benchmark 还没有公认标准）
评测复杂（多模态 judge 难做）

3.6 总评

Memory × Multi-Modal 离工业界”通用 AI 助理”最近，但 benchmark 缺失阻碍研究。如果你想做产品，这条线最有商业价值；想发 paper，benchmark 是先要解决的。

4. 3 个方向的横向对比 + 共同挑战

维度	Memory × RL	Memory × Multi-Agent	Memory × Multi-Modal
成熟度	早期	早期	早期
训练成本	高（RL）	中（多 agent 并行）	高（多模态）
Benchmark 成熟度	中（用 mainstream）	低（新 benchmark）	极低（缺失）
工业价值	中	高（产品级 agent）	极高（通用助理）
研究空间	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
PhD 选题推荐	第二选择	第一选择	第一选择（如愿做 benchmark）

4.1 共同挑战

Benchmark 滞后：3 个方向都缺成熟 benchmark
评测复杂：标准 acc / F1 不够
paired 评测难：跨 modality / 多 agent 配对样本怎么构造？
与 mainstream 的桥接：怎么证明”这条线的 trigger 与对话 memory 是一回事”

5. 与模块十八（空间记忆）的接口

模块十八专门讲空间记忆与具身智能：

本模块二十 (Agent Memory 论文演进)
   │
   ├─ Ch 8 §3 触到"视觉 / 空间 memory"
   │
   ▼
模块十八 (空间记忆与具身智能)
   ├─ Ch 1 Chat Memory ≠ Spatial Memory
   ├─ Ch 2 认知地图到工程系统
   └─ ...