Agentic RL 学习路线
系统梳理 Agentic RL 的完整学习路线:从 PG/PPO/GRPO 到 RLVR、Tool RL、Multi-turn Async,再到训练框架与端到端实战
如果说模块五 Memory 解决”agent 知道什么”、模块六 Runtime 解决”agent 怎么做”,模块七 Agentic RL 解决”agent 怎么变得更好”——通过强化学习自我改进。2024 年 DeepSeek R1 / OpenAI o1 把 RL 重新带回 LLM 主舞台,GRPO 成为事实标准算法,Search-R1 / ToolRL / Agent-R1 / VerlTool 等论文密集发表,verl / OpenRLHF 等工业框架成熟。本文给出 9 章 + 学习路线总览的知识图,带你从”为什么 RL 突然又火了”走到”用 verl 训一个 7B Search Agent 跑 GAIA”。
作者将根据该路线编写系列文章,帮助大家系统掌握 Agentic RL 技术。
📑 目录
🎯 全景概览:三条腿的 Agent 体系
┌────────────────────────────────────┐
│ 生产级 Agent(三条腿站立) │
└────────────────────────────────────┘
↑ ↑ ↑
┌────┴────┐ ┌────┴────┐ ┌────┴────┐
│ Memory │ │ Runtime │ │ RL │
│ (模块五) │ │ (模块六) │ │ (模块七) │
│ │ │ │ │ │
│ 知道什么 │ │ 怎么做 │ │ 怎么变好 │
└─────────┘ └─────────┘ └─────────┘
状态/经验 执行/编排 训练/进化
🔥 比喻:
- Memory(模块五)= agent 的”长期记忆 + 经验”
- Runtime(模块六)= agent 的”神经系统 + 行动框架”
- RL(模块七)= agent 的”成长激素”——让它从”会做”变成”做得越来越好”
三条腿都站稳,才是真正的”自我改进”agent。
🌟 为什么 2024-2025 RL 重新崛起
三波 RL × LLM 的浪潮
2017-2022 ──── PPO + RLHF InstructGPT / ChatGPT
2023 ──── DPO no RL no RM,简化 alignment
2024 ──── GRPO + RLVR DeepSeekMath / R1,推理大模型
2025 ──── Agentic RL Search-R1 / ToolRL / Agent-R1
2025-12 ──── 失败模式系统化 LLD Death Spiral 等论文
三个关键转折点
① RLVR 的发现(2024):不需要昂贵的人类偏好,可验证的 reward(数学答案、代码 unit test、工具调用结果)就能驱动 RL,推理能力迅速涌现。DeepSeek R1 是这一路线的标杆。
② GRPO 的崛起:DeepSeek 提出的 group-relative policy optimization,去掉了 PPO 中昂贵的 critic 网络,内存省一半,工程简化巨大,迅速取代 PPO。
③ Async Rollout(2025):long trajectory 的 multi-turn agent RL 在同步训练下崩,verl/OpenRLHF 的 async 训推分离把训练速度提升 2-3×,让 agent RL 在工业上变可行。
🍎 结论:2024-2025 是 LLM RL 的”规模化元年”——既有算法(GRPO + RLVR),又有工程(async rollout),还有应用(agent / tool / search),三件齐全。
📖 章节导览
| 章 | 主题 | 核心拼图 | 关键论文/框架 |
|---|---|---|---|
| 1 | Agentic RL 是什么 | RL 三波浪潮、与 SFT/DPO 边界、为什么 agent 离不开 RL | — |
| 2 | RL 基础速通 | PG → AC → PPO → DPO → GRPO 五件套 | DeepSeekMath、DAPO |
| 3 | GRPO 失败模式 ⭐ | Entropy/Advantage/KL collapse、LLD Death Spiral | arXiv 2512.04220、arXiv 2509.20265 |
| 4 | RLVR 与 Reward 设计 | 可验证 reward、PRM/ORM、reward hacking | DeepSeek R1、OpenAI o1 |
| 5 | Tool RL 论文精读 | 6+ 篇里程碑读透 | Search-R1、ToolRL、Agent-R1、VerlTool |
| 6 | Multi-turn + Async Rollout | 长 trajectory 训练、训推分离 | verl Fully Async、OpenRLHF 0.8 |
| 7 | Self-Improvement / Flywheel | SFT+RL 飞轮、ReST、STaR、合成数据 | ReST^EM、STaR |
| 8 | 训练框架对比 | 8 框架横评 + 选型 | verl、OpenRLHF、TRL、NeMo-RL、Unsloth |
| 9 | 端到端实战 ⭐ | verl 训 7B Search Agent 跑 GAIA | verl + Qwen2.5 + GAIA |
⏳ 关键论文与时间线
2017 ──── PPO (Schulman et al.) 至今最经典
2022 ──── InstructGPT / RLHF ChatGPT 起点
2023-05 ── DPO (Rafailov et al.) no RL no RM
2024-02 ── DeepSeekMath / GRPO 起源 group-relative
2024-07 ── ReFT / ReST / STaR self-improvement
2025-01 ── DeepSeek R1 RLVR 推理大模型
2025-03 ── Search-R1 RL 训 LLM reason+search
2025-Q2 ── ToolRL / Agent-R1 端到端 tool agent
2025-09 ── VerlTool holistic tool RL,async 2x
2025-09 ── Failure Modes of MaxEnt RLHF 系统总结熵问题
2025-09 ── Agentic RL Survey arXiv 2509.02547
2025-09 ── Tree Search for LLM Agent RL RL + MCTS
2025-12 ── LLD Death Spiral ⭐ arXiv 2512.04220
2026-Q1 ── DAPO 工业改进 GRPO ByteDance Seed
🌟 2025 是 Agentic RL 的”算法+框架+论文”全面成熟的一年。
🛠️ 主流训练框架速查
| 框架 | 出品方 | 哲学 | 核心特性 | 适合 |
|---|---|---|---|---|
| verl | ByteDance | HybridFlow + async | Fully Async Trainer 2.35-2.67× 加速 | 大规模生产训练 |
| OpenRLHF | OpenRLHF Team | Ray + 模块化 | PPO/DAPO/REINFORCE++ 全套 | 灵活、研究 |
| TRL | HuggingFace | HF 生态一体 | DPO/PPO/GRPO/ORPO | 入门、文本 RL |
| NeMo-RL | NVIDIA | 企业级 | 与 NeMo 栈深度集成 | 企业训练栈 |
| Unsloth RL | Unsloth | 单卡省显存 | LoRA + GRPO,QLoRA RL | 个人/小规模 |
| Axolotl RL | Axolotl | YAML 驱动 | 配置式训练 | 微调爱好者 |
| DAPO | ByteDance Seed | GRPO 改进 | 论文配套 system | 复现 SOTA |
| Verl-Tool | 中科大 | tool RL 专用 | 异步 rollout 2× | tool RL 场景 |
🧭 新人破局指南
学习路径(推荐 6-8 周)
第 1-2 周:理解 Agentic RL 全景
- 通读第 1-2 章,做完自我检验
- 跑通 TRL 的 GRPO 最简 demo(单卡 7B,数学任务)
- 把 PG → PPO → GRPO 的公式手推一遍
第 3 周:深入 GRPO 失败模式 ⭐
- 第 3 章重点研读
- 精读 LLD Death Spiral 论文(arXiv 2512.04220)
- 在小模型上故意触发 entropy collapse,看 wandb 曲线
第 4 周:RLVR 与 Reward 设计
- 第 4 章
- 自己设计一个 multi-objective reward 跑实验
- 体会”reward hacking”的具体形态
第 5 周:Tool RL 论文精读
- 第 5 章逐篇读 Search-R1、ToolRL、Agent-R1、VerlTool
- 对比四篇论文的 reward 设计、训练 trick
第 6 周:工程框架
- 第 6 章 Multi-turn + Async
- 第 8 章框架对比,跑通 verl 和 OpenRLHF 各一个简单任务
第 7-8 周:端到端实战
- 第 9 章在 8 卡 H100 上跑 Search Agent 训练
- 跑 GAIA 评测,与 baseline 对比
三个高频踩坑
- 以为 RL 能解决一切:RL 是 SFT 之后的”放大器”,没有好的 SFT base,RL 学不出来。先做扎实的 SFT。
- 忽视 entropy 监控:训练曲线只看 reward 上升 = 灾难。entropy 才是真正的早期预警信号(第 3 章详讲)。
- 直接上工业大数据:先用小数据(几千条)在小模型(0.5B-1.5B)上验证算法和 reward 设计,再 scale 到 7B+ 大数据,跳过这步会浪费几万 GPU 小时。
与模块二/三/六的协同
| 模块 | 提供 | RL 利用 |
|---|---|---|
| 模块二 CUDA | FlashAttention、自定义算子 | RL 训练用同样优化的 kernel |
| 模块三 分布式训练 | DDP / FSDP / TP / PP / ZeRO | RL 训推分离时同时用得上 |
| 模块四 推理优化 | vLLM / SGLang / KV cache | rollout 阶段用 vLLM 跑推理 |
| 模块五 Memory | 长期记忆 / Reflection | RL 训出来的 agent + Memory 做长期 self-improvement |
| 模块六 Runtime | LangGraph / Tool / Saga | RL 训完的 agent 部署到 Runtime 上 |
🍎 生产级 Agentic RL = AI Infra 全栈合奏。这就是为什么这套教程要从模块一一路打到模块七。
🔁 核心思维:Verifier 驱动的训练循环
┌─────────────────────────────────────────────────────┐
│ │
│ Base Model │
│ │ │
│ ▼ │
│ SFT(可选,提供 cold start) │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────┐ │
│ │ Rollout(vLLM 跑推理生成 trajectory) │ │
│ └─────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────┐ │
│ │ Verifier(数学评分 / unit test / │ │
│ │ tool 成功 / human) │ │
│ │ → reward │ │
│ └─────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────┐ │
│ │ GRPO(group-relative advantage)│ │
│ │ → policy gradient │ │
│ └─────────────────────────────────┘ │
│ │ │
│ ▼ │
│ Updated Model ──→ 回到 Rollout │
│ │
└─────────────────────────────────────────────────────┘
关键洞察:Verifier 是 Agentic RL 的灵魂——能否设计一个干净的 verifier,决定了 RL 能否成功。Reward hacking 几乎都源于 verifier 设计漏洞(下一节第 4 章讲)。
📚 参考资料
论文(按时间线)
- PPO (Schulman et al., 2017):arXiv 1707.06347
- InstructGPT / RLHF (Ouyang et al., 2022):arXiv 2203.02155
- DPO (Rafailov et al., 2023):arXiv 2305.18290
- DeepSeekMath / GRPO (2024):arXiv 2402.03300
- DeepSeek R1 (2025):arXiv 2501.12948
- Search-R1 (2025):arXiv 2503.09516
- VerlTool (2025):arXiv 2509.01055
- Agent-R1 (2025):arXiv 2511.14460
- DAPO (2025):ByteDance Seed paper
- Failure Modes of MaxEnt RLHF (2025):arXiv 2509.20265
- LLD Death Spiral (2025):arXiv 2512.04220 ⭐
- Agentic RL Survey (2025):arXiv 2509.02547
框架
- verl:github.com/verl-project/verl
- OpenRLHF:github.com/openrlhf/openrlhf
- TRL:github.com/huggingface/trl
- NeMo-RL:NVIDIA NeMo
- Unsloth RL:github.com/unslothai/unsloth
综述与博客
- Anatomy of RL Frameworks (Hanif Leoputera):hanifleo.com
- Open Source RL Libraries for LLMs (Anyscale):博文
- Beyond PPO (yadnyesh):博文
- RL Posttraining for Tool-Using Agents (Zylos 2026):博文
- Agentic RL Training Recipes:github.com/blacksnail789521/Agentic-RL-Training-Recipes
- Awesome RL-based Agentic Search Papers:github