多 Agent 并发与事务 学习路线
把 LLM Agent 多智能体并发执行的 race condition 系统讲清楚——从冲突分类、STM 移植、到 LLM 重规划与端到端实战,串起 8 篇关键论文与 6+ 框架
让 5 个客服 Agent 同时改同一份机票订单——一个改乘客名单、一个改行李、一个改航班——你以为得到的是一份合并后的预订,实际有 79% 概率得到一份乱码。这不是个别 case,而是把 14 个 ground-truth 多 Agent 任务跑 10 轮的均值(AgentSTM, ARR 2026 投稿数据:3/14 在无保护并发下能通过 ground-truth 校验)。AutoGen / CrewAI 这些主流框架对此毫无防御;MetaGPT / ChatDev 干脆放弃并发,强行串行;Reflexion 这种 single-agent 反思机制在多 agent 场景下会持续撞墙——因为它”verbal 上反思了,executed plan 没改”。本路线把”多 Agent 并发”这个看似稀松的工程问题拆成可量化对象:哪些冲突类型、哪些失败模式、哪些恢复策略、哪些不可能三角,配以 8 篇里程碑论文、6 套主流框架横评和一份从 0 实现的 mini-AgentSTM。
作者将根据该路线编写系列文章,帮助读者系统掌握多 Agent 系统的并发控制与事务设计。
📑 目录
🌟 全景概览:为什么多 Agent 需要事务
数据库领域 1970 年代就把”两个事务并发改一行数据”这件事拍死了——ACID 给出了 atomicity / consistency / isolation / durability 四个保证,OCC / 2PL / MVCC 给出了三套主流并发控制范式。但 LLM Agent 出现以后,这套四十年积累的并发理论被 multi-agent 框架全部丢掉了。AutoGen / CrewAI 让多个 Agent 并发调工具,但工具调用层没有版本号、没有验证、没有冲突检测——一旦两个 Agent 改同一份共享 state,写写冲突、lost update、write skew 全部回归。
四类 Agent 并发冲突的全景如下表:
| 冲突类型 | 数据库术语 | Agent 场景实例 |
|---|---|---|
| 写写冲突 | Lost Update | 两个 Agent 同时给计数器 +1,结果只 +1 |
| 读写冲突 | Stale Read | Agent A 读旧版用户档案、生成回复,Agent B 已经 upsert 了新档案 |
| 因果违反 | Write Skew | 两个 Agent 各自看了对方未提交的状态,各自做”对的”决策,合起来违反不变式 |
| 计划级冲突 | Saga 失败 | Agent 编排的多步工作流中间一步失败,需要补偿(compensation)或重规划 |
🧠 核心洞察:LLM Agent 不是普通线程。普通线程冲突后只能”重做同一段代码”——这就是论文里的 Plan-Rigid Retry,论文证明在持续争用下必然永久失败(Bounded-Retry Impossibility)。LLM Agent 能 reason about why 冲突发生,生成一个目标相同但执行路径不同的新计划——这就是 Intent Preservation,是这个领域最关键的概念分水岭。
🍎 直觉比喻:传统线程是”自动驾驶但只会沿同一条路”——堵车了就在原地打转;LLM Agent 是会”看路况换路线”的司机——同一个”送货到 A 点”的目标,可以走 1 号公路也可以走 2 号公路。
📖 章节导览
整个教程分为 8 章,从概念到实战环环相扣:
| 章 | 主题 | 核心问题 | 主要论文/框架 |
|---|---|---|---|
| 1 ✅ | 多 Agent 并发与事务的关系 | 为什么 LLM Agent 系统需要事务?race condition 在工具调用中长什么样?与 DB 事务的边界 | — |
| 2 ✅ | 冲突的分类法与失败模式 | 写写 / 读写 / 因果违反 / 计划级冲突;按粒度 × 类型的二维分类;14 任务损坏链路逐一拆解 | AgentSTM 14-task benchmark |
| 3 ✅ | 从 STM 到 AgentSTM | DB STM 简史(OCC、CAS、版本号)→ 移植到 Agent 层(ATVar、版本化资源 wrapper、validation 协议) | TL2、Shavit 1995、AgentSTM |
| 4 ✅ | 经典论文精读 ⭐ 长篇调研 | 27 篇文献 按 5 大流派全景精读:DB 时代地基 / Single-Agent reasoning / Multi-Agent 框架 / Agent Transaction 主战场 / 周边支撑;含方法论演进与 5 个开放问题 | Sagas, STM, TL2, Reflexion, SagaLLM, Atomix, AgentSTM, ATCC, CodeCRDT, Aegean … |
| 5 | 主流框架对比 | 同一个并发任务,AutoGen / CrewAI / MetaGPT / Temporal / SagaLLM / AgentSTM 各怎么实现 | 6 套框架横评 |
| 6 | 冲突解决策略与 Replan 设计 | Plan-rigid retry / Reflexion verbal retry / Intent-preserving replan / LLM-guided replan / RL-adaptive;prompt 设计 | Reflexion、AgentSTM RQ2 |
| 7 | 评测与失败注入 | 怎么评测一个 agent 事务系统?ground-truth task 设计、contention scan、fault injection、τ-bench | AgentSTM RQ3-RQ4 |
| 8 | 端到端实战 —— 给 AutoGen 加上 STM 保护 | 从 0 实现一个 mini AgentSTM;接入 AutoGen workflow | AgentSTM 源码骨架 |
📜 八篇必读论文时间线
按”概念基础 → Agent 时代论文”分两个时段:
1970s ── 1987 ────── 1995 ── 2005 ── 2023 ─── 2024 ──── 2025 ────── 2026
ACID Sagas STM TL2 Reflexion ┌────────┐ SagaLLM Atomix
│ │ ALAS AgentSTM
│ 单 Agent │ CodeCRDT ATCC
│ 反思 │ Aegean
└────────┘
经典基础(必须先懂)
| # | 论文 | 年份 | 一句话贡献 |
|---|---|---|---|
| 0a | Software Transactional Memory (Shavit & Touitou) | 1995 | 把 lock-free 并发抽象成”事务”——奠基 |
| 0b | TL2 (Dice, Shalev, Shavit) | 2006 | 全局时间戳 + commit-time validation——AgentSTM 的直接灵感来源 |
| 0c | Sagas (Garcia-Molina & Salem) | 1987 | 长事务用补偿动作链分解——所有 SagaLLM 类工作的源头 |
Agent 时代关键论文
| # | 论文 | 年份 | 关键贡献 |
|---|---|---|---|
| 1 | Reflexion (Shinn et al.) | 2023 | Verbal reinforcement——单 Agent 反思失败、改下一次尝试。多 Agent 场景的对比基线 |
| 2 | SagaLLM (Bui et al.) | VLDB 2025 | 把 Sagas 移植到 LLM Agent workflow,长事务 + 补偿。代价是串行化执行 |
| 3 | ALAS (Geng & Chang) | 2025 | SagaLLM 的扩展,加上 local repair + idempotency keys |
| 4 | CodeCRDT | 2025 | CRDT 用于多 Agent 代码协同编辑,5-10% 残余语义冲突需要人工介入 |
| 5 | Aegean | 2025 | 分布式共识协议适配多 Agent 决策一致性(不是 state) |
| 6 | Atomix | ICML 2026 | Frontier-gated commit:进度 predicate 验证后才提交副作用 |
| 7 | AgentSTM ⭐ | ARR/EMNLP 2026 | OCC + LLM 重规划:bounded-retry impossibility 的 escape 是 intent preservation |
| 8 | ATCC | 2026 | RL 自适应在 OCC / 悲观锁之间切换 |
⭐ AgentSTM 的位置:它是这条线上第一个把”LLM 推理能力”作为并发控制的核心机制的工作——前面的 SagaLLM / Atomix / ATCC 都把 Agent 当线程对待,AgentSTM 第一次说”等等,Agent 能 rewrite 自己的 plan”。这是教程第 3、6、7 章的主线。
🛠 主流框架对照表
按”对并发冲突的处理方式”横向对比:
| 框架 | 并发模型 | 冲突检测 | 冲突恢复 | 79% 损坏率下表现 |
|---|---|---|---|---|
| AutoGen | 真并发 | ❌ 无 | ❌ 无 | 损坏 |
| CrewAI | 真并发 | ❌ 无 | ❌ 无 | 损坏 |
| MetaGPT / ChatDev | SOP 串行 | N/A(无并发) | N/A | 100% 但慢 |
| Temporal(durable execution) | Workflow 级 | 工作流级 | 工作流补偿 | 不感知 agent 语义 |
| SagaLLM | Saga 串行 | Saga 链 | 补偿链 | 100% 但 fault 注入下崩塌 |
| AgentSTM | OCC 真并发 | ATVar 版本号验证 | LLM 重规划 + escalation | 100% 且并发 |
⭕ 互补关系:Temporal 解决”工作流持久化”,AgentSTM 解决”工作流内 race”,两者并不互斥——生产部署可以同时用:Temporal 管 workflow 重启与 retry,AgentSTM 管 workflow 内并发 agent 的状态一致性。
🚦 新人破局指南
按以下顺序阅读,能让你从”知道有这个问题”走到”能给一个 multi-agent 项目加上事务保护”:
- 先读第 1-2 章:把”agent 并发到底坏在哪”和”冲突有哪几类”钉死——没有这个分类感,看 SagaLLM / AgentSTM 都是雾里看花
- 跳第 3 章:如果你熟悉 DB STM(读过 TL2),可以略读;不熟悉就老老实实读完,否则后面所有论文都看不懂
- 第 4 章选读:8 篇论文不是必须全读。最少读 SagaLLM + AgentSTM + Atomix(顺序建议是这样:SagaLLM 给历史包袱、AgentSTM 给主线方法、Atomix 给对比 baseline)
- 第 5 章动手:把你正在用的框架(AutoGen / CrewAI / LangGraph)拿出来对照表,看它属于”无保护”还是”有限保护”——大概率是无保护
- 第 6-7 章是工程功夫:Replan prompt 设计 + 评测方法论。这两章决定你的方案能不能跑出可发表的数据
- 第 8 章实战:跟着教程从 0 写一个 mini-AgentSTM,跑通 AutoGen 多 agent 工作流。代码量 ~800 行 Python,一周可完成
🌟 结论:这条路线的核心洞察只有一句——“多 Agent 并发不是 LLM 问题,是 systems 问题;但 systems 问题在 LLM 时代有了新答案”。把这句话内化,整个领域就清晰了。
📚 参考资料
概念入门
- Software Transactional Memory wiki —— Wikipedia:Software Transactional Memory
- Sagas pattern —— microservices.io:Saga pattern
关键论文
- Software Transactional Memory(Shavit & Touitou, 1995):PODC 1995 —— STM 奠基论文
- Transactional Locking II / TL2(Dice et al., 2006):DISC 2006 —— commit-time validation 的范式
- Sagas(Garcia-Molina & Salem, 1987):SIGMOD 1987 —— 长事务补偿的祖师爷
- Reflexion(Shinn et al., 2023):arXiv 2303.11366 —— 单 Agent verbal reinforcement
- SagaLLM(Bui et al., 2025):VLDB 2025 —— LLM workflow 的 Saga 化
- Atomix(Anonymous, 2026):ICML 2026 投稿 —— frontier-gated commit
- AgentSTM(Anonymous, 2026):ARR / EMNLP 2026 投稿 —— OCC + LLM replan,本路线主线
- ATCC(Zhou et al., 2026):2026 —— RL 在 OCC / 悲观锁间自适应切换
行业讨论
- AutoGen / CrewAI 的并发问题 —— 各 issue tracker 里搜 “concurrent state” / “race condition”
- MetaGPT 为什么选择 SOP —— MetaGPT 论文 §3.1 关于”role specialization”的讨论
框架文档
- AutoGen 官方文档:microsoft.github.io/autogen
- CrewAI 官方文档:docs.crewai.com
- MetaGPT 官方文档:docs.deepwisdom.ai
- Temporal 官方文档:docs.temporal.io
- LangGraph 官方文档:langchain-ai.github.io/langgraph