跳到主要内容
AIInfra学习路线

Agentic RL 学习路线

系统梳理 Agentic RL 的完整学习路线:从 PG/PPO/GRPO 到 RLVR、Tool RL、Multi-turn Async,再到训练框架与端到端实战

Agentic RL 学习路线 GRPO RLVR Search-R1 verl OpenRLHF DeepSeek R1

如果说模块五 Memory 解决”agent 知道什么”、模块六 Runtime 解决”agent 怎么做”,模块七 Agentic RL 解决”agent 怎么变得更好”——通过强化学习自我改进。2024 年 DeepSeek R1 / OpenAI o1 把 RL 重新带回 LLM 主舞台,GRPO 成为事实标准算法,Search-R1 / ToolRL / Agent-R1 / VerlTool 等论文密集发表,verl / OpenRLHF 等工业框架成熟。本文给出 9 章 + 学习路线总览的知识图,带你从”为什么 RL 突然又火了”走到”用 verl 训一个 7B Search Agent 跑 GAIA”。

作者将根据该路线编写系列文章,帮助大家系统掌握 Agentic RL 技术。

📑 目录


🎯 全景概览:三条腿的 Agent 体系

        ┌────────────────────────────────────┐
        │      生产级 Agent(三条腿站立)        │
        └────────────────────────────────────┘
        ↑              ↑               ↑
   ┌────┴────┐    ┌────┴────┐    ┌────┴────┐
   │ Memory  │    │ Runtime │    │   RL    │
   │ (模块五) │    │ (模块六) │    │ (模块七) │
   │         │    │         │    │         │
   │ 知道什么 │    │ 怎么做  │    │ 怎么变好 │
   └─────────┘    └─────────┘    └─────────┘
   状态/经验      执行/编排     训练/进化

🔥 比喻:

  • Memory(模块五)= agent 的”长期记忆 + 经验”
  • Runtime(模块六)= agent 的”神经系统 + 行动框架”
  • RL(模块七)= agent 的”成长激素”——让它从”会做”变成”做得越来越好”

三条腿都站稳,才是真正的”自我改进”agent。


🌟 为什么 2024-2025 RL 重新崛起

三波 RL × LLM 的浪潮

2017-2022 ──── PPO + RLHF             InstructGPT / ChatGPT
2023      ──── DPO                    no RL no RM,简化 alignment
2024      ──── GRPO + RLVR            DeepSeekMath / R1,推理大模型
2025      ──── Agentic RL             Search-R1 / ToolRL / Agent-R1
2025-12   ──── 失败模式系统化         LLD Death Spiral 等论文

三个关键转折点

① RLVR 的发现(2024):不需要昂贵的人类偏好,可验证的 reward(数学答案、代码 unit test、工具调用结果)就能驱动 RL,推理能力迅速涌现。DeepSeek R1 是这一路线的标杆。

② GRPO 的崛起:DeepSeek 提出的 group-relative policy optimization,去掉了 PPO 中昂贵的 critic 网络,内存省一半,工程简化巨大,迅速取代 PPO。

③ Async Rollout(2025):long trajectory 的 multi-turn agent RL 在同步训练下崩,verl/OpenRLHF 的 async 训推分离把训练速度提升 2-3×,让 agent RL 在工业上变可行

🍎 结论:2024-2025 是 LLM RL 的”规模化元年”——既有算法(GRPO + RLVR),又有工程(async rollout),还有应用(agent / tool / search),三件齐全。


📖 章节导览

主题核心拼图关键论文/框架
1Agentic RL 是什么RL 三波浪潮、与 SFT/DPO 边界、为什么 agent 离不开 RL
2RL 基础速通PG → AC → PPO → DPO → GRPO 五件套DeepSeekMath、DAPO
3GRPO 失败模式 ⭐Entropy/Advantage/KL collapse、LLD Death SpiralarXiv 2512.04220arXiv 2509.20265
4RLVR 与 Reward 设计可验证 reward、PRM/ORM、reward hackingDeepSeek R1、OpenAI o1
5Tool RL 论文精读6+ 篇里程碑读透Search-R1、ToolRL、Agent-R1、VerlTool
6Multi-turn + Async Rollout长 trajectory 训练、训推分离verl Fully Async、OpenRLHF 0.8
7Self-Improvement / FlywheelSFT+RL 飞轮、ReST、STaR、合成数据ReST^EM、STaR
8训练框架对比8 框架横评 + 选型verl、OpenRLHF、TRL、NeMo-RL、Unsloth
9端到端实战 ⭐verl 训 7B Search Agent 跑 GAIAverl + Qwen2.5 + GAIA

⏳ 关键论文与时间线

2017 ──── PPO (Schulman et al.)              至今最经典
2022 ──── InstructGPT / RLHF                  ChatGPT 起点
2023-05 ── DPO (Rafailov et al.)              no RL no RM
2024-02 ── DeepSeekMath / GRPO 起源            group-relative
2024-07 ── ReFT / ReST / STaR                 self-improvement
2025-01 ── DeepSeek R1                        RLVR 推理大模型
2025-03 ── Search-R1                          RL 训 LLM reason+search
2025-Q2 ── ToolRL / Agent-R1                  端到端 tool agent
2025-09 ── VerlTool                           holistic tool RL,async 2x
2025-09 ── Failure Modes of MaxEnt RLHF       系统总结熵问题
2025-09 ── Agentic RL Survey                  arXiv 2509.02547
2025-09 ── Tree Search for LLM Agent RL       RL + MCTS
2025-12 ── LLD Death Spiral ⭐                 arXiv 2512.04220
2026-Q1 ── DAPO 工业改进 GRPO                  ByteDance Seed

🌟 2025 是 Agentic RL 的”算法+框架+论文”全面成熟的一年


🛠️ 主流训练框架速查

框架出品方哲学核心特性适合
verlByteDanceHybridFlow + asyncFully Async Trainer 2.35-2.67× 加速大规模生产训练
OpenRLHFOpenRLHF TeamRay + 模块化PPO/DAPO/REINFORCE++ 全套灵活、研究
TRLHuggingFaceHF 生态一体DPO/PPO/GRPO/ORPO入门、文本 RL
NeMo-RLNVIDIA企业级与 NeMo 栈深度集成企业训练栈
Unsloth RLUnsloth单卡省显存LoRA + GRPO,QLoRA RL个人/小规模
Axolotl RLAxolotlYAML 驱动配置式训练微调爱好者
DAPOByteDance SeedGRPO 改进论文配套 system复现 SOTA
Verl-Tool中科大tool RL 专用异步 rollout 2×tool RL 场景

🧭 新人破局指南

学习路径(推荐 6-8 周)

第 1-2 周:理解 Agentic RL 全景

  • 通读第 1-2 章,做完自我检验
  • 跑通 TRL 的 GRPO 最简 demo(单卡 7B,数学任务)
  • 把 PG → PPO → GRPO 的公式手推一遍

第 3 周:深入 GRPO 失败模式 ⭐

  • 第 3 章重点研读
  • 精读 LLD Death Spiral 论文(arXiv 2512.04220)
  • 在小模型上故意触发 entropy collapse,看 wandb 曲线

第 4 周:RLVR 与 Reward 设计

  • 第 4 章
  • 自己设计一个 multi-objective reward 跑实验
  • 体会”reward hacking”的具体形态

第 5 周:Tool RL 论文精读

  • 第 5 章逐篇读 Search-R1、ToolRL、Agent-R1、VerlTool
  • 对比四篇论文的 reward 设计、训练 trick

第 6 周:工程框架

  • 第 6 章 Multi-turn + Async
  • 第 8 章框架对比,跑通 verl 和 OpenRLHF 各一个简单任务

第 7-8 周:端到端实战

  • 第 9 章在 8 卡 H100 上跑 Search Agent 训练
  • 跑 GAIA 评测,与 baseline 对比

三个高频踩坑

  1. 以为 RL 能解决一切:RL 是 SFT 之后的”放大器”,没有好的 SFT base,RL 学不出来。先做扎实的 SFT。
  2. 忽视 entropy 监控:训练曲线只看 reward 上升 = 灾难。entropy 才是真正的早期预警信号(第 3 章详讲)。
  3. 直接上工业大数据:先用小数据(几千条)在小模型(0.5B-1.5B)上验证算法和 reward 设计,再 scale 到 7B+ 大数据,跳过这步会浪费几万 GPU 小时。

与模块二/三/六的协同

模块提供RL 利用
模块二 CUDAFlashAttention、自定义算子RL 训练用同样优化的 kernel
模块三 分布式训练DDP / FSDP / TP / PP / ZeRORL 训推分离时同时用得上
模块四 推理优化vLLM / SGLang / KV cacherollout 阶段用 vLLM 跑推理
模块五 Memory长期记忆 / ReflectionRL 训出来的 agent + Memory 做长期 self-improvement
模块六 RuntimeLangGraph / Tool / SagaRL 训完的 agent 部署到 Runtime 上

🍎 生产级 Agentic RL = AI Infra 全栈合奏。这就是为什么这套教程要从模块一一路打到模块七。


🔁 核心思维:Verifier 驱动的训练循环

┌─────────────────────────────────────────────────────┐
│                                                     │
│  Base Model                                         │
│      │                                              │
│      ▼                                              │
│  SFT(可选,提供 cold start)                          │
│      │                                              │
│      ▼                                              │
│  ┌─────────────────────────────────┐                │
│  │  Rollout(vLLM 跑推理生成 trajectory) │                │
│  └─────────────────────────────────┘                │
│      │                                              │
│      ▼                                              │
│  ┌─────────────────────────────────┐                │
│  │  Verifier(数学评分 / unit test /   │                │
│  │           tool 成功 / human)       │                │
│  │   → reward                          │                │
│  └─────────────────────────────────┘                │
│      │                                              │
│      ▼                                              │
│  ┌─────────────────────────────────┐                │
│  │  GRPO(group-relative advantage)│                │
│  │   → policy gradient                  │                │
│  └─────────────────────────────────┘                │
│      │                                              │
│      ▼                                              │
│  Updated Model ──→ 回到 Rollout                      │
│                                                     │
└─────────────────────────────────────────────────────┘

关键洞察:Verifier 是 Agentic RL 的灵魂——能否设计一个干净的 verifier,决定了 RL 能否成功。Reward hacking 几乎都源于 verifier 设计漏洞(下一节第 4 章讲)。


📚 参考资料

论文(按时间线)

框架

综述与博客