Agent Runtime 学习路线

如果说 Agent Memory(模块五)解决”agent 知道什么”,Agent Runtime 解决”agent 怎么做”——怎么编排控制流、怎么协调多个 agent、怎么在崩溃后恢复、怎么在多步操作失败时回滚、怎么对接外部工具和其他 agent、怎么观测整个执行过程。这是一条横贯 LangGraph、Temporal、MCP、A2A、SagaLLM、OpenTelemetry GenAI 的完整工程主线,2025-2026 年密集成型。本文给出 9 章 + 1 篇学习路线总览的知识图,带你从”5 行 demo”走到”生产级订单 agent”。

作者将根据该路线编写系列文章,帮助大家系统掌握 Agent Runtime 技术。

🌟 全景概览:Memory 与 Runtime 是 Agent 的两条腿

        ┌────────────────────────────────────┐
        │  生产级 Agent(站立的人)             │
        └────────────────────────────────────┘
              ↑                  ↑
       ┌──────┴──────┐    ┌─────┴─────┐
       │   Memory    │    │  Runtime   │
       │ (模块五)     │    │  (模块六)   │
       │             │    │             │
       │ 知道什么     │    │ 怎么做     │
       │ 长期记忆     │    │ 控制流     │
       │ 偏好抽取     │    │ 编排调度   │
       │ KG / Vector │    │ Durable     │
       │ Reflection  │    │ Saga 事务   │
       └─────────────┘    │ MCP / A2A   │
                          │ Observable  │
                          └─────────────┘

🍎 比喻:Memory 像大脑里的知识与回忆,Runtime 像神经系统 + 内分泌 + 免疫——决定”信号怎么传导、动作怎么协调、出错怎么恢复”。两条腿缺一条,生产级 agent 就站不稳。

🏗️ Agent Stack 五层模型

   ┌─────────────────────────────────────────────────────────┐
5: │  Observability:OTel GenAI / LangSmith / Langfuse        │
   ├─────────────────────────────────────────────────────────┤
4: │  Runtime:Durable Execution(Temporal / Restate / LG)    │
   │           Transactions(Saga / 2PC / Outbox)             │
   ├─────────────────────────────────────────────────────────┤
3: │  Workflow Orchestration:LangGraph / CrewAI / AutoGen   │
   │                          编排模式:Supervisor/Swarm/...  │
   ├─────────────────────────────────────────────────────────┤
2: │  Tool Layer:MCP servers(数据库/API/文件/浏览器)         │
   │              A2A:与其他 agent 协作                      │
   ├─────────────────────────────────────────────────────────┤
1: │  LLM Client:OpenAI / Anthropic / vLLM / 本地模型        │
   └─────────────────────────────────────────────────────────┘

每一层都对应本模块的 1-2 章。“Agent Runtime”在窄义上指第 4 层,广义上覆盖第 2-5 层全部”非 LLM 调用本身”的工程。本教程取广义。

📖 章节导览

章	主题	关键拼图	核心论文/框架
1	Agent Runtime 是什么	4 大职责、8 类失败模式	—
2	控制流模型	ReAct / Plan-Execute / Reflexion / Graph	ReAct、Reflexion
3	多 Agent 编排	Supervisor / Swarm / Hierarchical / Mesh / Pipeline	LangGraph Supervisor、Swarms
4	主流框架对比	8 个框架横评 + 选型决策树	LangGraph、CrewAI、AutoGen、Letta、OpenAI Agents、Pydantic AI、Mastra、Agno
5	Durable Execution	Checkpoint / Replay / Resume	Temporal、Restate、LangGraph
6	Agent Transactions	Saga / 2PC / Outbox / SagaLLM	SagaLLM (VLDB 2025)
7	协议层 MCP + A2A	agent ↔ tool / agent ↔ agent	Anthropic MCP、Google A2A
8	Observability	OTel GenAI、LangSmith、Langfuse	OTel GenAI Semantic Conv
9	端到端实战	订单处理 agent 全栈	LangGraph + Temporal + MCP + LangSmith

⏳ 关键论文与时间线

2022-10 ──── ReAct (Yao et al.)                       Reason+Act 循环范式
2023-03 ──── Reflexion (Shinn et al.)                 自我反思改写计划
2023-09 ──── CoALA (Sumers et al.)                    Cognitive arch 标准化(模块五已讲)
2024-11 ──── MCP 发布 (Anthropic)                     Agent ↔ Tool 协议
2025-04 ──── A2A 发布 (Google)                        Agent ↔ Agent 协议
2025-06 ──── G-Memory (模块五)                        多 agent 共享 memory
2025-Q3 ──── OTel GenAI Semantic Conventions v1.37    可观测标准化
2025-Q4 ──── SagaLLM (Chang et al., VLDB 2025)        多 agent 事务保证 ⭐
2025-12 ──── MCP 捐 Linux Foundation                  生态正式定型
2026-Q1 ──── 各大 agent runtime 全面 MCP/A2A 兼容     工业落地

🌟 2025 是 Agent Runtime 的”标准化之年”——MCP、A2A、OTel GenAI、SagaLLM 几大拼图同年完成。这一年开始,搭一个 production-ready agent 终于有了像 Web 时代 HTTP+REST+OpenAPI+OpenTelemetry 那样的”完整栈”。

🛠️ 主流框架与协议速查

编排框架

框架	哲学	适合
LangGraph	Graph state machine	复杂 stateful workflow,生产首选
CrewAI	角色与团队	快速原型,role-based
AutoGen	Conversation as workflow	对话式多 agent
OpenAI Agents SDK / Swarm	极简 handoff	OpenAI 栈
Pydantic AI	强类型 + structured output	类型安全敏感
Mastra	TypeScript-first	全栈 JS/TS 团队
Letta	OS-style stateful agent	长会话(模块五讲过)
Agno / OpenAgents	MCP/A2A 原生	协议化、可组合

Durable Execution

引擎	适合
LangGraph 内置 checkpointer	中小规模、与 LangGraph 一体
Temporal	工业级,长跑 workflow,多语言
Restate	轻量、cloud-native
Cloudflare Agents	边缘 / serverless

协议

协议	解决
MCP(Anthropic)	Agent ↔ Tools 标准
A2A(Google)	Agent ↔ Agent 协作

Observability

工具	定位
LangSmith	LangChain 出品,与 LangGraph 深度集成
Langfuse	开源、自托管、OTel 兼容
OTel GenAI Semantic Conventions	业界标准,所有平台都该兼容
Helicone / Phoenix / Traceloop / Portkey	横向选项

🧭 新人破局指南

学习路径(推荐 6-8 周)

第 1-2 周:理解 Agent Runtime 全景

通读第 1-2 章,做完自我检验
实操:用 LangGraph 写一个最简 ReAct agent(< 50 行)
把”5 行 demo”改造成”加重试 + 加 checkpoint”的版本,体会差距

第 3-4 周:多 Agent 编排 + 框架横评

第 3-4 章,分别用 LangGraph、CrewAI、Pydantic AI 实现同一个简单 agent
对比代码风格、抽象层次、生态成熟度
跑一个 Supervisor + 3 个 Worker 的小例子

第 5 周:Durable Execution

第 5 章,跑 Temporal 官方 AI agent 教程
体会”杀进程后从 checkpoint 恢复”的力量

第 6 周:Agent Transactions ⭐

第 6 章,精读 SagaLLM 论文(VLDB 2025)
在第 3 周的小 agent 上加 compensation handler
故意 inject 失败,观察 Saga 回滚

第 7 周:协议 + Observability

第 7 章,写一个最简 MCP server,接到 LangGraph
第 8 章,接 LangSmith / Langfuse,看完整 trace

第 8 周:端到端实战

跑通第 9 章的订单处理 agent
自己改造业务,做混沌测试,体会”生产级”的标准

三个高频踩坑

混淆 Workflow 与 Agent:Workflow 是 deterministic 的步骤序列(适合 Temporal),Agent 是 LLM 在循环里自主决策。生产 agent 通常是 deterministic outer workflow + LLM-driven inner loop 的混合。
忽略 Saga 补偿的对称性:补偿不是”撤销操作”那么简单——支付已退,但用户已收货怎么办?补偿要有 SLA,补偿失败要有人工干预兜底。
过度 hype “swarm 自组织”:99% 的生产 agent 系统用 Supervisor + Hierarchical 就够了,Swarm 适合特殊场景(实时博弈、emergent behavior)。

与模块五 Memory 的协同

模块五 Memory 提供	模块六 Runtime 利用
跨 session 用户偏好	Workflow 启动时加载到 state
工具调用历史	Procedural memory 驱动 routing
反思总结	Supervisor 决策依据
Bi-temporal facts	Saga 补偿时的”事实回滚”

🍎 生产 agent = Memory(模块五) + Runtime(模块六) 的合奏。本教程读完,你应该能独立设计一个完整的 production-ready agent 系统。

🎯 核心思维:Runtime 也是 Trade-off

优化	牺牲	换取
LangGraph DAG 显式建模	灵活性	可观测、可调试、可恢复
Supervisor 集中编排	延迟(多一次 LLM 路由)	可审计
Swarm 去中心化	可控性	低延迟、横向扩展
Durable Execution	写入存储延迟	崩溃可恢复
Saga 补偿	实现复杂度	最终一致性
2PC	阻塞、可用性	强一致
MCP/A2A 标准协议	协议开销	互操作性
OTel 全 trace	存储成本	可解释、可回归

理解每个权衡,你就知道每一层框架/协议为什么这样设计——这是 Agent Runtime 工程师的核心思维。

📚 参考资料

论文

ReAct (Yao et al., 2022):arXiv 2210.03629
Reflexion (Shinn et al., 2023):arXiv 2303.11366
CoALA (Sumers et al., NeurIPS 2024):arXiv 2309.02427
SagaLLM (Chang et al., VLDB 2025):arXiv 2503.11951 ⭐

协议

MCP 官方:modelcontextprotocol.io
A2A 官方:Google A2A
OTel GenAI Semantic Conventions:opentelemetry.io

框架

LangGraph:github.com/langchain-ai/langgraph
CrewAI:github.com/joaomdmoura/crewAI
AutoGen:microsoft.github.io/autogen
Letta:github.com/letta-ai/letta
OpenAI Agents SDK:openai.github.io/openai-agents-python
Pydantic AI:ai.pydantic.dev
Mastra:mastra.ai
Agno:agno.com
Temporal:temporal.io
Restate:restate.dev
LangSmith:smith.langchain.com
Langfuse:langfuse.com

综合阅读

The Agent Stack —— Substack:theagentstack.substack.com
Awesome Agents —— GitHub 综合资源
AWS Prescriptive Guidance: Agentic AI Patterns:AWS Docs

搜索