AIInfra学习路线 2026年5月10日

多 Agent 并发与事务学习路线

把 LLM Agent 多智能体并发执行的 race condition 系统讲清楚——从冲突分类、STM 移植、到 LLM 重规划与端到端实战，串起 8 篇关键论文与 6+ 框架

Multi-Agent Concurrency Transactions STM OCC AgentSTM SagaLLM Atomix Reflexion ARR2026

让 5 个客服 Agent 同时改同一份机票订单——一个改乘客名单、一个改行李、一个改航班——你以为得到的是一份合并后的预订，实际有 79% 概率得到一份乱码。这不是个别 case，而是把 14 个 ground-truth 多 Agent 任务跑 10 轮的均值（AgentSTM, ARR 2026 投稿数据：3/14 在无保护并发下能通过 ground-truth 校验）。AutoGen / CrewAI 这些主流框架对此毫无防御；MetaGPT / ChatDev 干脆放弃并发，强行串行；Reflexion 这种 single-agent 反思机制在多 agent 场景下会持续撞墙——因为它”verbal 上反思了，executed plan 没改”。本路线把”多 Agent 并发”这个看似稀松的工程问题拆成可量化对象：哪些冲突类型、哪些失败模式、哪些恢复策略、哪些不可能三角，配以 8 篇里程碑论文、6 套主流框架横评和一份从 0 实现的 mini-AgentSTM。

作者将根据该路线编写系列文章，帮助读者系统掌握多 Agent 系统的并发控制与事务设计。

🌟 全景概览：为什么多 Agent 需要事务

数据库领域 1970 年代就把”两个事务并发改一行数据”这件事拍死了——ACID 给出了 atomicity / consistency / isolation / durability 四个保证，OCC / 2PL / MVCC 给出了三套主流并发控制范式。但 LLM Agent 出现以后，这套四十年积累的并发理论被 multi-agent 框架全部丢掉了。AutoGen / CrewAI 让多个 Agent 并发调工具，但工具调用层没有版本号、没有验证、没有冲突检测——一旦两个 Agent 改同一份共享 state，写写冲突、lost update、write skew 全部回归。

四类 Agent 并发冲突的全景如下表：

冲突类型	数据库术语	Agent 场景实例
写写冲突	Lost Update	两个 Agent 同时给计数器 +1，结果只 +1
读写冲突	Stale Read	Agent A 读旧版用户档案、生成回复，Agent B 已经 upsert 了新档案
因果违反	Write Skew	两个 Agent 各自看了对方未提交的状态，各自做”对的”决策，合起来违反不变式
计划级冲突	Saga 失败	Agent 编排的多步工作流中间一步失败，需要补偿（compensation）或重规划

🧠 核心洞察：LLM Agent 不是普通线程。普通线程冲突后只能”重做同一段代码”——这就是论文里的 Plan-Rigid Retry，论文证明在持续争用下必然永久失败（Bounded-Retry Impossibility）。LLM Agent 能 reason about why 冲突发生，生成一个目标相同但执行路径不同的新计划——这就是 Intent Preservation，是这个领域最关键的概念分水岭。

🍎 直觉比喻：传统线程是”自动驾驶但只会沿同一条路”——堵车了就在原地打转；LLM Agent 是会”看路况换路线”的司机——同一个”送货到 A 点”的目标，可以走 1 号公路也可以走 2 号公路。

📖 章节导览

整个教程分为 8 章，从概念到实战环环相扣：

章	主题	核心问题	主要论文/框架
1 ✅	多 Agent 并发与事务的关系	为什么 LLM Agent 系统需要事务？race condition 在工具调用中长什么样？与 DB 事务的边界	—
2 ✅	冲突的分类法与失败模式	写写 / 读写 / 因果违反 / 计划级冲突；按粒度 × 类型的二维分类；14 任务损坏链路逐一拆解	AgentSTM 14-task benchmark
3 ✅	从 STM 到 AgentSTM	DB STM 简史（OCC、CAS、版本号）→ 移植到 Agent 层（ATVar、版本化资源 wrapper、validation 协议）	TL2、Shavit 1995、AgentSTM
4 ✅	经典论文精读 ⭐ 长篇调研	27 篇文献按 5 大流派全景精读：DB 时代地基 / Single-Agent reasoning / Multi-Agent 框架 / Agent Transaction 主战场 / 周边支撑；含方法论演进与 5 个开放问题	Sagas, STM, TL2, Reflexion, SagaLLM, Atomix, AgentSTM, ATCC, CodeCRDT, Aegean …
5	主流框架对比	同一个并发任务，AutoGen / CrewAI / MetaGPT / Temporal / SagaLLM / AgentSTM 各怎么实现	6 套框架横评
6	冲突解决策略与 Replan 设计	Plan-rigid retry / Reflexion verbal retry / Intent-preserving replan / LLM-guided replan / RL-adaptive；prompt 设计	Reflexion、AgentSTM RQ2
7	评测与失败注入	怎么评测一个 agent 事务系统？ground-truth task 设计、contention scan、fault injection、τ-bench	AgentSTM RQ3-RQ4
8	端到端实战 —— 给 AutoGen 加上 STM 保护	从 0 实现一个 mini AgentSTM；接入 AutoGen workflow	AgentSTM 源码骨架

📜 八篇必读论文时间线

按”概念基础 → Agent 时代论文”分两个时段：

1970s ── 1987 ────── 1995 ── 2005 ── 2023 ─── 2024 ──── 2025 ────── 2026
ACID    Sagas      STM     TL2    Reflexion  ┌────────┐ SagaLLM    Atomix
                                              │        │ ALAS       AgentSTM
                                              │ 单 Agent │ CodeCRDT   ATCC
                                              │ 反思    │ Aegean
                                              └────────┘

经典基础（必须先懂）

#	论文	年份	一句话贡献
0a	Software Transactional Memory (Shavit & Touitou)	1995	把 lock-free 并发抽象成”事务”——奠基
0b	TL2 (Dice, Shalev, Shavit)	2006	全局时间戳 + commit-time validation——AgentSTM 的直接灵感来源
0c	Sagas (Garcia-Molina & Salem)	1987	长事务用补偿动作链分解——所有 SagaLLM 类工作的源头

Agent 时代关键论文

#	论文	年份	关键贡献
1	Reflexion (Shinn et al.)	2023	Verbal reinforcement——单 Agent 反思失败、改下一次尝试。多 Agent 场景的对比基线
2	SagaLLM (Bui et al.)	VLDB 2025	把 Sagas 移植到 LLM Agent workflow，长事务 + 补偿。代价是串行化执行
3	ALAS (Geng & Chang)	2025	SagaLLM 的扩展，加上 local repair + idempotency keys
4	CodeCRDT	2025	CRDT 用于多 Agent 代码协同编辑，5-10% 残余语义冲突需要人工介入
5	Aegean	2025	分布式共识协议适配多 Agent 决策一致性（不是 state）
6	Atomix	ICML 2026	Frontier-gated commit：进度 predicate 验证后才提交副作用
7	AgentSTM ⭐	ARR/EMNLP 2026	OCC + LLM 重规划：bounded-retry impossibility 的 escape 是 intent preservation
8	ATCC	2026	RL 自适应在 OCC / 悲观锁之间切换

⭐ AgentSTM 的位置：它是这条线上第一个把”LLM 推理能力”作为并发控制的核心机制的工作——前面的 SagaLLM / Atomix / ATCC 都把 Agent 当线程对待，AgentSTM 第一次说”等等，Agent 能 rewrite 自己的 plan”。这是教程第 3、6、7 章的主线。

🛠 主流框架对照表

按”对并发冲突的处理方式”横向对比：

框架	并发模型	冲突检测	冲突恢复	79% 损坏率下表现
AutoGen	真并发	❌ 无	❌ 无	损坏
CrewAI	真并发	❌ 无	❌ 无	损坏
MetaGPT / ChatDev	SOP 串行	N/A（无并发）	N/A	100% 但慢
Temporal（durable execution）	Workflow 级	工作流级	工作流补偿	不感知 agent 语义
SagaLLM	Saga 串行	Saga 链	补偿链	100% 但 fault 注入下崩塌
AgentSTM	OCC 真并发	ATVar 版本号验证	LLM 重规划 + escalation	100% 且并发

⭕ 互补关系：Temporal 解决”工作流持久化”，AgentSTM 解决”工作流内 race”，两者并不互斥——生产部署可以同时用：Temporal 管 workflow 重启与 retry，AgentSTM 管 workflow 内并发 agent 的状态一致性。

🚦 新人破局指南

按以下顺序阅读，能让你从”知道有这个问题”走到”能给一个 multi-agent 项目加上事务保护”：

先读第 1-2 章：把”agent 并发到底坏在哪”和”冲突有哪几类”钉死——没有这个分类感，看 SagaLLM / AgentSTM 都是雾里看花
跳第 3 章：如果你熟悉 DB STM（读过 TL2），可以略读；不熟悉就老老实实读完，否则后面所有论文都看不懂
第 4 章选读：8 篇论文不是必须全读。最少读 SagaLLM + AgentSTM + Atomix（顺序建议是这样：SagaLLM 给历史包袱、AgentSTM 给主线方法、Atomix 给对比 baseline）
第 5 章动手：把你正在用的框架（AutoGen / CrewAI / LangGraph）拿出来对照表，看它属于”无保护”还是”有限保护”——大概率是无保护
第 6-7 章是工程功夫：Replan prompt 设计 + 评测方法论。这两章决定你的方案能不能跑出可发表的数据
第 8 章实战：跟着教程从 0 写一个 mini-AgentSTM，跑通 AutoGen 多 agent 工作流。代码量 ~800 行 Python，一周可完成

🌟 结论：这条路线的核心洞察只有一句——“多 Agent 并发不是 LLM 问题，是 systems 问题；但 systems 问题在 LLM 时代有了新答案”。把这句话内化，整个领域就清晰了。

📚 参考资料

概念入门

Software Transactional Memory wiki —— Wikipedia：Software Transactional Memory
Sagas pattern —— microservices.io：Saga pattern

关键论文

Software Transactional Memory（Shavit & Touitou, 1995）：PODC 1995 —— STM 奠基论文
Transactional Locking II / TL2（Dice et al., 2006）：DISC 2006 —— commit-time validation 的范式
Sagas（Garcia-Molina & Salem, 1987）：SIGMOD 1987 —— 长事务补偿的祖师爷
Reflexion（Shinn et al., 2023）：arXiv 2303.11366 —— 单 Agent verbal reinforcement
SagaLLM（Bui et al., 2025）：VLDB 2025 —— LLM workflow 的 Saga 化
Atomix（Anonymous, 2026）：ICML 2026 投稿 —— frontier-gated commit
AgentSTM（Anonymous, 2026）：ARR / EMNLP 2026 投稿 —— OCC + LLM replan，本路线主线
ATCC（Zhou et al., 2026）：2026 —— RL 在 OCC / 悲观锁间自适应切换

行业讨论

AutoGen / CrewAI 的并发问题 —— 各 issue tracker 里搜 “concurrent state” / “race condition”
MetaGPT 为什么选择 SOP —— MetaGPT 论文 §3.1 关于”role specialization”的讨论

框架文档

AutoGen 官方文档：microsoft.github.io/autogen
CrewAI 官方文档：docs.crewai.com
MetaGPT 官方文档：docs.deepwisdom.ai
Temporal 官方文档：docs.temporal.io
LangGraph 官方文档：langchain-ai.github.io/langgraph

搜索