跳到主要内容
AIInfra学习路线

多 Agent 并发与事务 学习路线

把 LLM Agent 多智能体并发执行的 race condition 系统讲清楚——从冲突分类、STM 移植、到 LLM 重规划与端到端实战,串起 8 篇关键论文与 6+ 框架

Multi-Agent Concurrency Transactions STM OCC AgentSTM SagaLLM Atomix Reflexion ARR2026

让 5 个客服 Agent 同时改同一份机票订单——一个改乘客名单、一个改行李、一个改航班——你以为得到的是一份合并后的预订,实际有 79% 概率得到一份乱码。这不是个别 case,而是把 14 个 ground-truth 多 Agent 任务跑 10 轮的均值(AgentSTM, ARR 2026 投稿数据:3/14 在无保护并发下能通过 ground-truth 校验)。AutoGen / CrewAI 这些主流框架对此毫无防御;MetaGPT / ChatDev 干脆放弃并发,强行串行;Reflexion 这种 single-agent 反思机制在多 agent 场景下会持续撞墙——因为它”verbal 上反思了,executed plan 没改”。本路线把”多 Agent 并发”这个看似稀松的工程问题拆成可量化对象:哪些冲突类型、哪些失败模式、哪些恢复策略、哪些不可能三角,配以 8 篇里程碑论文、6 套主流框架横评和一份从 0 实现的 mini-AgentSTM。

作者将根据该路线编写系列文章,帮助读者系统掌握多 Agent 系统的并发控制与事务设计。

📑 目录


🌟 全景概览:为什么多 Agent 需要事务

数据库领域 1970 年代就把”两个事务并发改一行数据”这件事拍死了——ACID 给出了 atomicity / consistency / isolation / durability 四个保证,OCC / 2PL / MVCC 给出了三套主流并发控制范式。但 LLM Agent 出现以后,这套四十年积累的并发理论被 multi-agent 框架全部丢掉了。AutoGen / CrewAI 让多个 Agent 并发调工具,但工具调用层没有版本号、没有验证、没有冲突检测——一旦两个 Agent 改同一份共享 state,写写冲突、lost update、write skew 全部回归。

四类 Agent 并发冲突的全景如下表:

冲突类型数据库术语Agent 场景实例
写写冲突Lost Update两个 Agent 同时给计数器 +1,结果只 +1
读写冲突Stale ReadAgent A 读旧版用户档案、生成回复,Agent B 已经 upsert 了新档案
因果违反Write Skew两个 Agent 各自看了对方未提交的状态,各自做”对的”决策,合起来违反不变式
计划级冲突Saga 失败Agent 编排的多步工作流中间一步失败,需要补偿(compensation)或重规划

🧠 核心洞察LLM Agent 不是普通线程。普通线程冲突后只能”重做同一段代码”——这就是论文里的 Plan-Rigid Retry,论文证明在持续争用下必然永久失败(Bounded-Retry Impossibility)。LLM Agent 能 reason about why 冲突发生,生成一个目标相同但执行路径不同的新计划——这就是 Intent Preservation,是这个领域最关键的概念分水岭。

🍎 直觉比喻:传统线程是”自动驾驶但只会沿同一条路”——堵车了就在原地打转;LLM Agent 是会”看路况换路线”的司机——同一个”送货到 A 点”的目标,可以走 1 号公路也可以走 2 号公路。


📖 章节导览

整个教程分为 8 章,从概念到实战环环相扣:

主题核心问题主要论文/框架
1多 Agent 并发与事务的关系为什么 LLM Agent 系统需要事务?race condition 在工具调用中长什么样?与 DB 事务的边界
2冲突的分类法与失败模式写写 / 读写 / 因果违反 / 计划级冲突;按粒度 × 类型的二维分类;14 任务损坏链路逐一拆解AgentSTM 14-task benchmark
3从 STM 到 AgentSTMDB STM 简史(OCC、CAS、版本号)→ 移植到 Agent 层(ATVar、版本化资源 wrapper、validation 协议)TL2、Shavit 1995、AgentSTM
4经典论文精读 ⭐ 长篇调研27 篇文献 按 5 大流派全景精读:DB 时代地基 / Single-Agent reasoning / Multi-Agent 框架 / Agent Transaction 主战场 / 周边支撑;含方法论演进与 5 个开放问题Sagas, STM, TL2, Reflexion, SagaLLM, Atomix, AgentSTM, ATCC, CodeCRDT, Aegean …
5主流框架对比同一个并发任务,AutoGen / CrewAI / MetaGPT / Temporal / SagaLLM / AgentSTM 各怎么实现6 套框架横评
6冲突解决策略与 Replan 设计Plan-rigid retry / Reflexion verbal retry / Intent-preserving replan / LLM-guided replan / RL-adaptive;prompt 设计Reflexion、AgentSTM RQ2
7评测与失败注入怎么评测一个 agent 事务系统?ground-truth task 设计、contention scan、fault injection、τ-benchAgentSTM RQ3-RQ4
8端到端实战 —— 给 AutoGen 加上 STM 保护从 0 实现一个 mini AgentSTM;接入 AutoGen workflowAgentSTM 源码骨架

📜 八篇必读论文时间线

按”概念基础 → Agent 时代论文”分两个时段:

1970s ── 1987 ────── 1995 ── 2005 ── 2023 ─── 2024 ──── 2025 ────── 2026
ACID    Sagas      STM     TL2    Reflexion  ┌────────┐ SagaLLM    Atomix
                                              │        │ ALAS       AgentSTM
                                              │ 单 Agent │ CodeCRDT   ATCC
                                              │ 反思    │ Aegean
                                              └────────┘

经典基础(必须先懂)

#论文年份一句话贡献
0aSoftware Transactional Memory (Shavit & Touitou)1995把 lock-free 并发抽象成”事务”——奠基
0bTL2 (Dice, Shalev, Shavit)2006全局时间戳 + commit-time validation——AgentSTM 的直接灵感来源
0cSagas (Garcia-Molina & Salem)1987长事务用补偿动作链分解——所有 SagaLLM 类工作的源头

Agent 时代关键论文

#论文年份关键贡献
1Reflexion (Shinn et al.)2023Verbal reinforcement——单 Agent 反思失败、改下一次尝试。多 Agent 场景的对比基线
2SagaLLM (Bui et al.)VLDB 2025把 Sagas 移植到 LLM Agent workflow,长事务 + 补偿。代价是串行化执行
3ALAS (Geng & Chang)2025SagaLLM 的扩展,加上 local repair + idempotency keys
4CodeCRDT2025CRDT 用于多 Agent 代码协同编辑,5-10% 残余语义冲突需要人工介入
5Aegean2025分布式共识协议适配多 Agent 决策一致性(不是 state)
6AtomixICML 2026Frontier-gated commit:进度 predicate 验证后才提交副作用
7AgentSTMARR/EMNLP 2026OCC + LLM 重规划:bounded-retry impossibility 的 escape 是 intent preservation
8ATCC2026RL 自适应在 OCC / 悲观锁之间切换

AgentSTM 的位置:它是这条线上第一个把”LLM 推理能力”作为并发控制的核心机制的工作——前面的 SagaLLM / Atomix / ATCC 都把 Agent 当线程对待,AgentSTM 第一次说”等等,Agent 能 rewrite 自己的 plan”。这是教程第 3、6、7 章的主线。


🛠 主流框架对照表

按”对并发冲突的处理方式”横向对比:

框架并发模型冲突检测冲突恢复79% 损坏率下表现
AutoGen真并发❌ 无❌ 无损坏
CrewAI真并发❌ 无❌ 无损坏
MetaGPT / ChatDevSOP 串行N/A(无并发)N/A100% 但慢
Temporal(durable execution)Workflow 级工作流级工作流补偿不感知 agent 语义
SagaLLMSaga 串行Saga 链补偿链100% 但 fault 注入下崩塌
AgentSTMOCC 真并发ATVar 版本号验证LLM 重规划 + escalation100% 且并发

互补关系:Temporal 解决”工作流持久化”,AgentSTM 解决”工作流内 race”,两者并不互斥——生产部署可以同时用:Temporal 管 workflow 重启与 retry,AgentSTM 管 workflow 内并发 agent 的状态一致性。


🚦 新人破局指南

按以下顺序阅读,能让你从”知道有这个问题”走到”能给一个 multi-agent 项目加上事务保护”:

  1. 先读第 1-2 章:把”agent 并发到底坏在哪”和”冲突有哪几类”钉死——没有这个分类感,看 SagaLLM / AgentSTM 都是雾里看花
  2. 跳第 3 章:如果你熟悉 DB STM(读过 TL2),可以略读;不熟悉就老老实实读完,否则后面所有论文都看不懂
  3. 第 4 章选读:8 篇论文不是必须全读。最少读 SagaLLM + AgentSTM + Atomix(顺序建议是这样:SagaLLM 给历史包袱、AgentSTM 给主线方法、Atomix 给对比 baseline)
  4. 第 5 章动手:把你正在用的框架(AutoGen / CrewAI / LangGraph)拿出来对照表,看它属于”无保护”还是”有限保护”——大概率是无保护
  5. 第 6-7 章是工程功夫:Replan prompt 设计 + 评测方法论。这两章决定你的方案能不能跑出可发表的数据
  6. 第 8 章实战:跟着教程从 0 写一个 mini-AgentSTM,跑通 AutoGen 多 agent 工作流。代码量 ~800 行 Python,一周可完成

🌟 结论:这条路线的核心洞察只有一句——“多 Agent 并发不是 LLM 问题,是 systems 问题;但 systems 问题在 LLM 时代有了新答案”。把这句话内化,整个领域就清晰了。


📚 参考资料

概念入门

关键论文

  • Software Transactional Memory(Shavit & Touitou, 1995):PODC 1995 —— STM 奠基论文
  • Transactional Locking II / TL2(Dice et al., 2006):DISC 2006 —— commit-time validation 的范式
  • Sagas(Garcia-Molina & Salem, 1987):SIGMOD 1987 —— 长事务补偿的祖师爷
  • Reflexion(Shinn et al., 2023)arXiv 2303.11366 —— 单 Agent verbal reinforcement
  • SagaLLM(Bui et al., 2025):VLDB 2025 —— LLM workflow 的 Saga 化
  • Atomix(Anonymous, 2026):ICML 2026 投稿 —— frontier-gated commit
  • AgentSTM(Anonymous, 2026):ARR / EMNLP 2026 投稿 —— OCC + LLM replan,本路线主线
  • ATCC(Zhou et al., 2026):2026 —— RL 在 OCC / 悲观锁间自适应切换

行业讨论

  • AutoGen / CrewAI 的并发问题 —— 各 issue tracker 里搜 “concurrent state” / “race condition”
  • MetaGPT 为什么选择 SOP —— MetaGPT 论文 §3.1 关于”role specialization”的讨论

框架文档