Agent Runtime 学习路线
系统梳理 Agent Runtime 的完整学习路线:控制流、编排、Durable、事务、协议、observability,从概念到生产级实战
如果说 Agent Memory(模块五)解决”agent 知道什么”,Agent Runtime 解决”agent 怎么做”——怎么编排控制流、怎么协调多个 agent、怎么在崩溃后恢复、怎么在多步操作失败时回滚、怎么对接外部工具和其他 agent、怎么观测整个执行过程。这是一条横贯 LangGraph、Temporal、MCP、A2A、SagaLLM、OpenTelemetry GenAI 的完整工程主线,2025-2026 年密集成型。本文给出 9 章 + 1 篇学习路线总览的知识图,带你从”5 行 demo”走到”生产级订单 agent”。
作者将根据该路线编写系列文章,帮助大家系统掌握 Agent Runtime 技术。
📑 目录
- 全景概览:Memory 与 Runtime 是 Agent 的两条腿
- Agent Stack 五层模型
- 章节导览
- 关键论文与时间线
- 主流框架与协议速查
- 新人破局指南
- 核心思维:Runtime 也是 Trade-off
- 参考资料
🌟 全景概览:Memory 与 Runtime 是 Agent 的两条腿
┌────────────────────────────────────┐
│ 生产级 Agent(站立的人) │
└────────────────────────────────────┘
↑ ↑
┌──────┴──────┐ ┌─────┴─────┐
│ Memory │ │ Runtime │
│ (模块五) │ │ (模块六) │
│ │ │ │
│ 知道什么 │ │ 怎么做 │
│ 长期记忆 │ │ 控制流 │
│ 偏好抽取 │ │ 编排调度 │
│ KG / Vector │ │ Durable │
│ Reflection │ │ Saga 事务 │
└─────────────┘ │ MCP / A2A │
│ Observable │
└─────────────┘
🍎 比喻:Memory 像大脑里的知识与回忆,Runtime 像神经系统 + 内分泌 + 免疫——决定”信号怎么传导、动作怎么协调、出错怎么恢复”。两条腿缺一条,生产级 agent 就站不稳。
🏗️ Agent Stack 五层模型
┌─────────────────────────────────────────────────────────┐
5: │ Observability:OTel GenAI / LangSmith / Langfuse │
├─────────────────────────────────────────────────────────┤
4: │ Runtime:Durable Execution(Temporal / Restate / LG) │
│ Transactions(Saga / 2PC / Outbox) │
├─────────────────────────────────────────────────────────┤
3: │ Workflow Orchestration:LangGraph / CrewAI / AutoGen │
│ 编排模式:Supervisor/Swarm/... │
├─────────────────────────────────────────────────────────┤
2: │ Tool Layer:MCP servers(数据库/API/文件/浏览器) │
│ A2A:与其他 agent 协作 │
├─────────────────────────────────────────────────────────┤
1: │ LLM Client:OpenAI / Anthropic / vLLM / 本地模型 │
└─────────────────────────────────────────────────────────┘
每一层都对应本模块的 1-2 章。“Agent Runtime”在窄义上指第 4 层,广义上覆盖第 2-5 层全部”非 LLM 调用本身”的工程。本教程取广义。
📖 章节导览
| 章 | 主题 | 关键拼图 | 核心论文/框架 |
|---|---|---|---|
| 1 | Agent Runtime 是什么 | 4 大职责、8 类失败模式 | — |
| 2 | 控制流模型 | ReAct / Plan-Execute / Reflexion / Graph | ReAct、Reflexion |
| 3 | 多 Agent 编排 | Supervisor / Swarm / Hierarchical / Mesh / Pipeline | LangGraph Supervisor、Swarms |
| 4 | 主流框架对比 | 8 个框架横评 + 选型决策树 | LangGraph、CrewAI、AutoGen、Letta、OpenAI Agents、Pydantic AI、Mastra、Agno |
| 5 | Durable Execution | Checkpoint / Replay / Resume | Temporal、Restate、LangGraph |
| 6 | Agent Transactions | Saga / 2PC / Outbox / SagaLLM | SagaLLM (VLDB 2025) |
| 7 | 协议层 MCP + A2A | agent ↔ tool / agent ↔ agent | Anthropic MCP、Google A2A |
| 8 | Observability | OTel GenAI、LangSmith、Langfuse | OTel GenAI Semantic Conv |
| 9 | 端到端实战 | 订单处理 agent 全栈 | LangGraph + Temporal + MCP + LangSmith |
⏳ 关键论文与时间线
2022-10 ──── ReAct (Yao et al.) Reason+Act 循环范式
2023-03 ──── Reflexion (Shinn et al.) 自我反思改写计划
2023-09 ──── CoALA (Sumers et al.) Cognitive arch 标准化(模块五已讲)
2024-11 ──── MCP 发布 (Anthropic) Agent ↔ Tool 协议
2025-04 ──── A2A 发布 (Google) Agent ↔ Agent 协议
2025-06 ──── G-Memory (模块五) 多 agent 共享 memory
2025-Q3 ──── OTel GenAI Semantic Conventions v1.37 可观测标准化
2025-Q4 ──── SagaLLM (Chang et al., VLDB 2025) 多 agent 事务保证 ⭐
2025-12 ──── MCP 捐 Linux Foundation 生态正式定型
2026-Q1 ──── 各大 agent runtime 全面 MCP/A2A 兼容 工业落地
🌟 2025 是 Agent Runtime 的”标准化之年”——MCP、A2A、OTel GenAI、SagaLLM 几大拼图同年完成。这一年开始,搭一个 production-ready agent 终于有了像 Web 时代 HTTP+REST+OpenAPI+OpenTelemetry 那样的”完整栈”。
🛠️ 主流框架与协议速查
编排框架
| 框架 | 哲学 | 适合 |
|---|---|---|
| LangGraph | Graph state machine | 复杂 stateful workflow,生产首选 |
| CrewAI | 角色与团队 | 快速原型,role-based |
| AutoGen | Conversation as workflow | 对话式多 agent |
| OpenAI Agents SDK / Swarm | 极简 handoff | OpenAI 栈 |
| Pydantic AI | 强类型 + structured output | 类型安全敏感 |
| Mastra | TypeScript-first | 全栈 JS/TS 团队 |
| Letta | OS-style stateful agent | 长会话(模块五讲过) |
| Agno / OpenAgents | MCP/A2A 原生 | 协议化、可组合 |
Durable Execution
| 引擎 | 适合 |
|---|---|
| LangGraph 内置 checkpointer | 中小规模、与 LangGraph 一体 |
| Temporal | 工业级,长跑 workflow,多语言 |
| Restate | 轻量、cloud-native |
| Cloudflare Agents | 边缘 / serverless |
协议
| 协议 | 解决 |
|---|---|
| MCP(Anthropic) | Agent ↔ Tools 标准 |
| A2A(Google) | Agent ↔ Agent 协作 |
Observability
| 工具 | 定位 |
|---|---|
| LangSmith | LangChain 出品,与 LangGraph 深度集成 |
| Langfuse | 开源、自托管、OTel 兼容 |
| OTel GenAI Semantic Conventions | 业界标准,所有平台都该兼容 |
| Helicone / Phoenix / Traceloop / Portkey | 横向选项 |
🧭 新人破局指南
学习路径(推荐 6-8 周)
第 1-2 周:理解 Agent Runtime 全景
- 通读第 1-2 章,做完自我检验
- 实操:用 LangGraph 写一个最简 ReAct agent(< 50 行)
- 把”5 行 demo”改造成”加重试 + 加 checkpoint”的版本,体会差距
第 3-4 周:多 Agent 编排 + 框架横评
- 第 3-4 章,分别用 LangGraph、CrewAI、Pydantic AI 实现同一个简单 agent
- 对比代码风格、抽象层次、生态成熟度
- 跑一个 Supervisor + 3 个 Worker 的小例子
第 5 周:Durable Execution
- 第 5 章,跑 Temporal 官方 AI agent 教程
- 体会”杀进程后从 checkpoint 恢复”的力量
第 6 周:Agent Transactions ⭐
- 第 6 章,精读 SagaLLM 论文(VLDB 2025)
- 在第 3 周的小 agent 上加 compensation handler
- 故意 inject 失败,观察 Saga 回滚
第 7 周:协议 + Observability
- 第 7 章,写一个最简 MCP server,接到 LangGraph
- 第 8 章,接 LangSmith / Langfuse,看完整 trace
第 8 周:端到端实战
- 跑通第 9 章的订单处理 agent
- 自己改造业务,做混沌测试,体会”生产级”的标准
三个高频踩坑
- 混淆 Workflow 与 Agent:Workflow 是 deterministic 的步骤序列(适合 Temporal),Agent 是 LLM 在循环里自主决策。生产 agent 通常是 deterministic outer workflow + LLM-driven inner loop 的混合。
- 忽略 Saga 补偿的对称性:补偿不是”撤销操作”那么简单——支付已退,但用户已收货怎么办?补偿要有 SLA,补偿失败要有人工干预兜底。
- 过度 hype “swarm 自组织”:99% 的生产 agent 系统用 Supervisor + Hierarchical 就够了,Swarm 适合特殊场景(实时博弈、emergent behavior)。
与模块五 Memory 的协同
| 模块五 Memory 提供 | 模块六 Runtime 利用 |
|---|---|
| 跨 session 用户偏好 | Workflow 启动时加载到 state |
| 工具调用历史 | Procedural memory 驱动 routing |
| 反思总结 | Supervisor 决策依据 |
| Bi-temporal facts | Saga 补偿时的”事实回滚” |
🍎 生产 agent = Memory(模块五) + Runtime(模块六) 的合奏。本教程读完,你应该能独立设计一个完整的 production-ready agent 系统。
🎯 核心思维:Runtime 也是 Trade-off
| 优化 | 牺牲 | 换取 |
|---|---|---|
| LangGraph DAG 显式建模 | 灵活性 | 可观测、可调试、可恢复 |
| Supervisor 集中编排 | 延迟(多一次 LLM 路由) | 可审计 |
| Swarm 去中心化 | 可控性 | 低延迟、横向扩展 |
| Durable Execution | 写入存储延迟 | 崩溃可恢复 |
| Saga 补偿 | 实现复杂度 | 最终一致性 |
| 2PC | 阻塞、可用性 | 强一致 |
| MCP/A2A 标准协议 | 协议开销 | 互操作性 |
| OTel 全 trace | 存储成本 | 可解释、可回归 |
理解每个权衡,你就知道每一层框架/协议为什么这样设计——这是 Agent Runtime 工程师的核心思维。
📚 参考资料
论文
- ReAct (Yao et al., 2022):arXiv 2210.03629
- Reflexion (Shinn et al., 2023):arXiv 2303.11366
- CoALA (Sumers et al., NeurIPS 2024):arXiv 2309.02427
- SagaLLM (Chang et al., VLDB 2025):arXiv 2503.11951 ⭐
协议
- MCP 官方:modelcontextprotocol.io
- A2A 官方:Google A2A
- OTel GenAI Semantic Conventions:opentelemetry.io
框架
- LangGraph:github.com/langchain-ai/langgraph
- CrewAI:github.com/joaomdmoura/crewAI
- AutoGen:microsoft.github.io/autogen
- Letta:github.com/letta-ai/letta
- OpenAI Agents SDK:openai.github.io/openai-agents-python
- Pydantic AI:ai.pydantic.dev
- Mastra:mastra.ai
- Agno:agno.com
- Temporal:temporal.io
- Restate:restate.dev
- LangSmith:smith.langchain.com
- Langfuse:langfuse.com
综合阅读
- The Agent Stack —— Substack:theagentstack.substack.com
- Awesome Agents —— GitHub 综合资源
- AWS Prescriptive Guidance: Agentic AI Patterns:AWS Docs