Agentic RL 学习路线

如果说模块五 Memory 解决”agent 知道什么”、模块六 Runtime 解决”agent 怎么做”,模块七 Agentic RL 解决”agent 怎么变得更好”——通过强化学习自我改进。2024 年 DeepSeek R1 / OpenAI o1 把 RL 重新带回 LLM 主舞台,GRPO 成为事实标准算法,Search-R1 / ToolRL / Agent-R1 / VerlTool 等论文密集发表,verl / OpenRLHF 等工业框架成熟。本文给出 9 章 + 学习路线总览的知识图,带你从”为什么 RL 突然又火了”走到”用 verl 训一个 7B Search Agent 跑 GAIA”。

作者将根据该路线编写系列文章,帮助大家系统掌握 Agentic RL 技术。

🎯 全景概览:三条腿的 Agent 体系

        ┌────────────────────────────────────┐
        │      生产级 Agent(三条腿站立)        │
        └────────────────────────────────────┘
        ↑              ↑               ↑
   ┌────┴────┐    ┌────┴────┐    ┌────┴────┐
   │ Memory  │    │ Runtime │    │   RL    │
   │ (模块五) │    │ (模块六) │    │ (模块七) │
   │         │    │         │    │         │
   │ 知道什么 │    │ 怎么做  │    │ 怎么变好 │
   └─────────┘    └─────────┘    └─────────┘
   状态/经验      执行/编排     训练/进化

🔥 比喻:

Memory(模块五)= agent 的”长期记忆 + 经验”
Runtime(模块六)= agent 的”神经系统 + 行动框架”
RL(模块七)= agent 的”成长激素”——让它从”会做”变成”做得越来越好”

三条腿都站稳,才是真正的”自我改进”agent。

🌟 为什么 2024-2025 RL 重新崛起

三波 RL × LLM 的浪潮

2017-2022 ──── PPO + RLHF             InstructGPT / ChatGPT
2023      ──── DPO                    no RL no RM,简化 alignment
2024      ──── GRPO + RLVR            DeepSeekMath / R1,推理大模型
2025      ──── Agentic RL             Search-R1 / ToolRL / Agent-R1
2025-12   ──── 失败模式系统化         LLD Death Spiral 等论文

三个关键转折点

① RLVR 的发现(2024):不需要昂贵的人类偏好,可验证的 reward(数学答案、代码 unit test、工具调用结果)就能驱动 RL,推理能力迅速涌现。DeepSeek R1 是这一路线的标杆。

② GRPO 的崛起:DeepSeek 提出的 group-relative policy optimization,去掉了 PPO 中昂贵的 critic 网络,内存省一半,工程简化巨大,迅速取代 PPO。

③ Async Rollout(2025):long trajectory 的 multi-turn agent RL 在同步训练下崩,verl/OpenRLHF 的 async 训推分离把训练速度提升 2-3×,让 agent RL 在工业上变可行。

🍎 结论:2024-2025 是 LLM RL 的”规模化元年”——既有算法(GRPO + RLVR),又有工程(async rollout),还有应用(agent / tool / search),三件齐全。

📖 章节导览

章	主题	核心拼图	关键论文/框架
1	Agentic RL 是什么	RL 三波浪潮、与 SFT/DPO 边界、为什么 agent 离不开 RL	—
2	RL 基础速通	PG → AC → PPO → DPO → GRPO 五件套	DeepSeekMath、DAPO
3	GRPO 失败模式 ⭐	Entropy/Advantage/KL collapse、LLD Death Spiral	arXiv 2512.04220、arXiv 2509.20265
4	RLVR 与 Reward 设计	可验证 reward、PRM/ORM、reward hacking	DeepSeek R1、OpenAI o1
5	Tool RL 论文精读	6+ 篇里程碑读透	Search-R1、ToolRL、Agent-R1、VerlTool
6	Multi-turn + Async Rollout	长 trajectory 训练、训推分离	verl Fully Async、OpenRLHF 0.8
7	Self-Improvement / Flywheel	SFT+RL 飞轮、ReST、STaR、合成数据	ReST^EM、STaR
8	训练框架对比	8 框架横评 + 选型	verl、OpenRLHF、TRL、NeMo-RL、Unsloth
9	端到端实战 ⭐	verl 训 7B Search Agent 跑 GAIA	verl + Qwen2.5 + GAIA

⏳ 关键论文与时间线

2017 ──── PPO (Schulman et al.)              至今最经典
2022 ──── InstructGPT / RLHF                  ChatGPT 起点
2023-05 ── DPO (Rafailov et al.)              no RL no RM
2024-02 ── DeepSeekMath / GRPO 起源            group-relative
2024-07 ── ReFT / ReST / STaR                 self-improvement
2025-01 ── DeepSeek R1                        RLVR 推理大模型
2025-03 ── Search-R1                          RL 训 LLM reason+search
2025-Q2 ── ToolRL / Agent-R1                  端到端 tool agent
2025-09 ── VerlTool                           holistic tool RL,async 2x
2025-09 ── Failure Modes of MaxEnt RLHF       系统总结熵问题
2025-09 ── Agentic RL Survey                  arXiv 2509.02547
2025-09 ── Tree Search for LLM Agent RL       RL + MCTS
2025-12 ── LLD Death Spiral ⭐                 arXiv 2512.04220
2026-Q1 ── DAPO 工业改进 GRPO                  ByteDance Seed

🌟 2025 是 Agentic RL 的”算法+框架+论文”全面成熟的一年。

🛠️ 主流训练框架速查

框架	出品方	哲学	核心特性	适合
verl	ByteDance	HybridFlow + async	Fully Async Trainer 2.35-2.67× 加速	大规模生产训练
OpenRLHF	OpenRLHF Team	Ray + 模块化	PPO/DAPO/REINFORCE++ 全套	灵活、研究
TRL	HuggingFace	HF 生态一体	DPO/PPO/GRPO/ORPO	入门、文本 RL
NeMo-RL	NVIDIA	企业级	与 NeMo 栈深度集成	企业训练栈
Unsloth RL	Unsloth	单卡省显存	LoRA + GRPO,QLoRA RL	个人/小规模
Axolotl RL	Axolotl	YAML 驱动	配置式训练	微调爱好者
DAPO	ByteDance Seed	GRPO 改进	论文配套 system	复现 SOTA
Verl-Tool	中科大	tool RL 专用	异步 rollout 2×	tool RL 场景

🧭 新人破局指南

学习路径(推荐 6-8 周)

第 1-2 周:理解 Agentic RL 全景

通读第 1-2 章,做完自我检验
跑通 TRL 的 GRPO 最简 demo(单卡 7B,数学任务)
把 PG → PPO → GRPO 的公式手推一遍

第 3 周:深入 GRPO 失败模式 ⭐

第 3 章重点研读
精读 LLD Death Spiral 论文(arXiv 2512.04220)
在小模型上故意触发 entropy collapse,看 wandb 曲线

第 4 周:RLVR 与 Reward 设计

第 4 章
自己设计一个 multi-objective reward 跑实验
体会”reward hacking”的具体形态

第 5 周:Tool RL 论文精读

第 5 章逐篇读 Search-R1、ToolRL、Agent-R1、VerlTool
对比四篇论文的 reward 设计、训练 trick

第 6 周:工程框架

第 6 章 Multi-turn + Async
第 8 章框架对比,跑通 verl 和 OpenRLHF 各一个简单任务

第 7-8 周:端到端实战

第 9 章在 8 卡 H100 上跑 Search Agent 训练
跑 GAIA 评测,与 baseline 对比

三个高频踩坑

以为 RL 能解决一切:RL 是 SFT 之后的”放大器”,没有好的 SFT base,RL 学不出来。先做扎实的 SFT。
忽视 entropy 监控:训练曲线只看 reward 上升 = 灾难。entropy 才是真正的早期预警信号(第 3 章详讲)。
直接上工业大数据:先用小数据(几千条)在小模型(0.5B-1.5B)上验证算法和 reward 设计,再 scale 到 7B+ 大数据,跳过这步会浪费几万 GPU 小时。

与模块二/三/六的协同

模块	提供	RL 利用
模块二 CUDA	FlashAttention、自定义算子	RL 训练用同样优化的 kernel
模块三分布式训练	DDP / FSDP / TP / PP / ZeRO	RL 训推分离时同时用得上
模块四推理优化	vLLM / SGLang / KV cache	rollout 阶段用 vLLM 跑推理
模块五 Memory	长期记忆 / Reflection	RL 训出来的 agent + Memory 做长期 self-improvement
模块六 Runtime	LangGraph / Tool / Saga	RL 训完的 agent 部署到 Runtime 上

🍎 生产级 Agentic RL = AI Infra 全栈合奏。这就是为什么这套教程要从模块一一路打到模块七。

🔁 核心思维:Verifier 驱动的训练循环

┌─────────────────────────────────────────────────────┐
│                                                     │
│  Base Model                                         │
│      │                                              │
│      ▼                                              │
│  SFT(可选,提供 cold start)                          │
│      │                                              │
│      ▼                                              │
│  ┌─────────────────────────────────┐                │
│  │  Rollout(vLLM 跑推理生成 trajectory) │                │
│  └─────────────────────────────────┘                │
│      │                                              │
│      ▼                                              │
│  ┌─────────────────────────────────┐                │
│  │  Verifier(数学评分 / unit test /   │                │
│  │           tool 成功 / human)       │                │
│  │   → reward                          │                │
│  └─────────────────────────────────┘                │
│      │                                              │
│      ▼                                              │
│  ┌─────────────────────────────────┐                │
│  │  GRPO(group-relative advantage)│                │
│  │   → policy gradient                  │                │
│  └─────────────────────────────────┘                │
│      │                                              │
│      ▼                                              │
│  Updated Model ──→ 回到 Rollout                      │
│                                                     │
└─────────────────────────────────────────────────────┘

关键洞察:Verifier 是 Agentic RL 的灵魂——能否设计一个干净的 verifier,决定了 RL 能否成功。Reward hacking 几乎都源于 verifier 设计漏洞(下一节第 4 章讲)。

📚 参考资料

论文(按时间线)

PPO (Schulman et al., 2017):arXiv 1707.06347
InstructGPT / RLHF (Ouyang et al., 2022):arXiv 2203.02155
DPO (Rafailov et al., 2023):arXiv 2305.18290
DeepSeekMath / GRPO (2024):arXiv 2402.03300
DeepSeek R1 (2025):arXiv 2501.12948
Search-R1 (2025):arXiv 2503.09516
VerlTool (2025):arXiv 2509.01055
Agent-R1 (2025):arXiv 2511.14460
DAPO (2025):ByteDance Seed paper
Failure Modes of MaxEnt RLHF (2025):arXiv 2509.20265
LLD Death Spiral (2025):arXiv 2512.04220 ⭐
Agentic RL Survey (2025):arXiv 2509.02547

框架

verl:github.com/verl-project/verl
OpenRLHF:github.com/openrlhf/openrlhf
TRL:github.com/huggingface/trl
NeMo-RL:NVIDIA NeMo
Unsloth RL:github.com/unslothai/unsloth

综述与博客

Anatomy of RL Frameworks (Hanif Leoputera):hanifleo.com
Open Source RL Libraries for LLMs (Anyscale):博文
Beyond PPO (yadnyesh):博文
RL Posttraining for Tool-Using Agents (Zylos 2026):博文
Agentic RL Training Recipes:github.com/blacksnail789521/Agentic-RL-Training-Recipes
Awesome RL-based Agentic Search Papers:github

搜索