跳到主要内容
AIInfra学习路线

Agent Runtime 学习路线

系统梳理 Agent Runtime 的完整学习路线:控制流、编排、Durable、事务、协议、observability,从概念到生产级实战

Agent Runtime 学习路线 LangGraph Temporal MCP A2A SagaLLM Observability

如果说 Agent Memory(模块五)解决”agent 知道什么”,Agent Runtime 解决”agent 怎么做”——怎么编排控制流、怎么协调多个 agent、怎么在崩溃后恢复、怎么在多步操作失败时回滚、怎么对接外部工具和其他 agent、怎么观测整个执行过程。这是一条横贯 LangGraph、Temporal、MCP、A2A、SagaLLM、OpenTelemetry GenAI 的完整工程主线,2025-2026 年密集成型。本文给出 9 章 + 1 篇学习路线总览的知识图,带你从”5 行 demo”走到”生产级订单 agent”。

作者将根据该路线编写系列文章,帮助大家系统掌握 Agent Runtime 技术。

📑 目录


🌟 全景概览:Memory 与 Runtime 是 Agent 的两条腿

        ┌────────────────────────────────────┐
        │  生产级 Agent(站立的人)             │
        └────────────────────────────────────┘
              ↑                  ↑
       ┌──────┴──────┐    ┌─────┴─────┐
       │   Memory    │    │  Runtime   │
       │ (模块五)     │    │  (模块六)   │
       │             │    │             │
       │ 知道什么     │    │ 怎么做     │
       │ 长期记忆     │    │ 控制流     │
       │ 偏好抽取     │    │ 编排调度   │
       │ KG / Vector │    │ Durable     │
       │ Reflection  │    │ Saga 事务   │
       └─────────────┘    │ MCP / A2A   │
                          │ Observable  │
                          └─────────────┘

🍎 比喻:Memory 像大脑里的知识与回忆,Runtime 像神经系统 + 内分泌 + 免疫——决定”信号怎么传导、动作怎么协调、出错怎么恢复”。两条腿缺一条,生产级 agent 就站不稳。


🏗️ Agent Stack 五层模型

   ┌─────────────────────────────────────────────────────────┐
5: │  Observability:OTel GenAI / LangSmith / Langfuse        │
   ├─────────────────────────────────────────────────────────┤
4: │  Runtime:Durable Execution(Temporal / Restate / LG)    │
   │           Transactions(Saga / 2PC / Outbox)             │
   ├─────────────────────────────────────────────────────────┤
3: │  Workflow Orchestration:LangGraph / CrewAI / AutoGen   │
   │                          编排模式:Supervisor/Swarm/...  │
   ├─────────────────────────────────────────────────────────┤
2: │  Tool Layer:MCP servers(数据库/API/文件/浏览器)         │
   │              A2A:与其他 agent 协作                      │
   ├─────────────────────────────────────────────────────────┤
1: │  LLM Client:OpenAI / Anthropic / vLLM / 本地模型        │
   └─────────────────────────────────────────────────────────┘

每一层都对应本模块的 1-2 章。“Agent Runtime”在窄义上指第 4 层,广义上覆盖第 2-5 层全部”非 LLM 调用本身”的工程。本教程取广义。


📖 章节导览

主题关键拼图核心论文/框架
1Agent Runtime 是什么4 大职责、8 类失败模式
2控制流模型ReAct / Plan-Execute / Reflexion / GraphReAct、Reflexion
3多 Agent 编排Supervisor / Swarm / Hierarchical / Mesh / PipelineLangGraph Supervisor、Swarms
4主流框架对比8 个框架横评 + 选型决策树LangGraph、CrewAI、AutoGen、Letta、OpenAI Agents、Pydantic AI、Mastra、Agno
5Durable ExecutionCheckpoint / Replay / ResumeTemporal、Restate、LangGraph
6Agent TransactionsSaga / 2PC / Outbox / SagaLLMSagaLLM (VLDB 2025)
7协议层 MCP + A2Aagent ↔ tool / agent ↔ agentAnthropic MCP、Google A2A
8ObservabilityOTel GenAI、LangSmith、LangfuseOTel GenAI Semantic Conv
9端到端实战订单处理 agent 全栈LangGraph + Temporal + MCP + LangSmith

⏳ 关键论文与时间线

2022-10 ──── ReAct (Yao et al.)                       Reason+Act 循环范式
2023-03 ──── Reflexion (Shinn et al.)                 自我反思改写计划
2023-09 ──── CoALA (Sumers et al.)                    Cognitive arch 标准化(模块五已讲)
2024-11 ──── MCP 发布 (Anthropic)                     Agent ↔ Tool 协议
2025-04 ──── A2A 发布 (Google)                        Agent ↔ Agent 协议
2025-06 ──── G-Memory (模块五)                        多 agent 共享 memory
2025-Q3 ──── OTel GenAI Semantic Conventions v1.37    可观测标准化
2025-Q4 ──── SagaLLM (Chang et al., VLDB 2025)        多 agent 事务保证 ⭐
2025-12 ──── MCP 捐 Linux Foundation                  生态正式定型
2026-Q1 ──── 各大 agent runtime 全面 MCP/A2A 兼容     工业落地

🌟 2025 是 Agent Runtime 的”标准化之年”——MCP、A2A、OTel GenAI、SagaLLM 几大拼图同年完成。这一年开始,搭一个 production-ready agent 终于有了像 Web 时代 HTTP+REST+OpenAPI+OpenTelemetry 那样的”完整栈”。


🛠️ 主流框架与协议速查

编排框架

框架哲学适合
LangGraphGraph state machine复杂 stateful workflow,生产首选
CrewAI角色与团队快速原型,role-based
AutoGenConversation as workflow对话式多 agent
OpenAI Agents SDK / Swarm极简 handoffOpenAI 栈
Pydantic AI强类型 + structured output类型安全敏感
MastraTypeScript-first全栈 JS/TS 团队
LettaOS-style stateful agent长会话(模块五讲过)
Agno / OpenAgentsMCP/A2A 原生协议化、可组合

Durable Execution

引擎适合
LangGraph 内置 checkpointer中小规模、与 LangGraph 一体
Temporal工业级,长跑 workflow,多语言
Restate轻量、cloud-native
Cloudflare Agents边缘 / serverless

协议

协议解决
MCP(Anthropic)Agent ↔ Tools 标准
A2A(Google)Agent ↔ Agent 协作

Observability

工具定位
LangSmithLangChain 出品,与 LangGraph 深度集成
Langfuse开源、自托管、OTel 兼容
OTel GenAI Semantic Conventions业界标准,所有平台都该兼容
Helicone / Phoenix / Traceloop / Portkey横向选项

🧭 新人破局指南

学习路径(推荐 6-8 周)

第 1-2 周:理解 Agent Runtime 全景

  • 通读第 1-2 章,做完自我检验
  • 实操:用 LangGraph 写一个最简 ReAct agent(< 50 行)
  • 把”5 行 demo”改造成”加重试 + 加 checkpoint”的版本,体会差距

第 3-4 周:多 Agent 编排 + 框架横评

  • 第 3-4 章,分别用 LangGraph、CrewAI、Pydantic AI 实现同一个简单 agent
  • 对比代码风格、抽象层次、生态成熟度
  • 跑一个 Supervisor + 3 个 Worker 的小例子

第 5 周:Durable Execution

  • 第 5 章,跑 Temporal 官方 AI agent 教程
  • 体会”杀进程后从 checkpoint 恢复”的力量

第 6 周:Agent Transactions ⭐

  • 第 6 章,精读 SagaLLM 论文(VLDB 2025)
  • 在第 3 周的小 agent 上加 compensation handler
  • 故意 inject 失败,观察 Saga 回滚

第 7 周:协议 + Observability

  • 第 7 章,写一个最简 MCP server,接到 LangGraph
  • 第 8 章,接 LangSmith / Langfuse,看完整 trace

第 8 周:端到端实战

  • 跑通第 9 章的订单处理 agent
  • 自己改造业务,做混沌测试,体会”生产级”的标准

三个高频踩坑

  1. 混淆 Workflow 与 Agent:Workflow 是 deterministic 的步骤序列(适合 Temporal),Agent 是 LLM 在循环里自主决策。生产 agent 通常是 deterministic outer workflow + LLM-driven inner loop 的混合。
  2. 忽略 Saga 补偿的对称性:补偿不是”撤销操作”那么简单——支付已退,但用户已收货怎么办?补偿要有 SLA,补偿失败要有人工干预兜底
  3. 过度 hype “swarm 自组织”:99% 的生产 agent 系统用 Supervisor + Hierarchical 就够了,Swarm 适合特殊场景(实时博弈、emergent behavior)。

与模块五 Memory 的协同

模块五 Memory 提供模块六 Runtime 利用
跨 session 用户偏好Workflow 启动时加载到 state
工具调用历史Procedural memory 驱动 routing
反思总结Supervisor 决策依据
Bi-temporal factsSaga 补偿时的”事实回滚”

🍎 生产 agent = Memory(模块五) + Runtime(模块六) 的合奏。本教程读完,你应该能独立设计一个完整的 production-ready agent 系统。


🎯 核心思维:Runtime 也是 Trade-off

优化牺牲换取
LangGraph DAG 显式建模灵活性可观测、可调试、可恢复
Supervisor 集中编排延迟(多一次 LLM 路由)可审计
Swarm 去中心化可控性低延迟、横向扩展
Durable Execution写入存储延迟崩溃可恢复
Saga 补偿实现复杂度最终一致性
2PC阻塞、可用性强一致
MCP/A2A 标准协议协议开销互操作性
OTel 全 trace存储成本可解释、可回归

理解每个权衡,你就知道每一层框架/协议为什么这样设计——这是 Agent Runtime 工程师的核心思维。


📚 参考资料

论文

协议

框架

综合阅读