🎯 Agentic RL 9 篇文章 · 9 个章节

模块七：Agentic RL

从 PG/PPO/GRPO 到 RLVR、Tool RL、Multi-turn Async Rollout，再到 Self-Improvement Flywheel、verl/OpenRLHF 框架对比与端到端 Search Agent 训练实战，系统掌握 2025-2026 让 LLM Agent 学会自我改进的强化学习栈。

开始学习

章节目录

1 第1章：Agentic RL 是什么

为什么 2025 RL 重新崛起,SFT/DPO/RLHF/RLVR/Agentic RL 的边界,以及为什么 Agent 离不开 RL

2 第2章：RL 基础速通 —— 从 PG 到 PPO 到 GRPO

5 个核心 RL 算法递进讲透:Policy Gradient / Actor-Critic / PPO / DPO / GRPO,以及 GRPO 为什么主导 2025 LLM 后训练

3 第3章：GRPO 失败模式与稳定性 —— 训练曲线背后的暗面

Entropy collapse / Advantage collapse / KL drift / Lazy Likelihood Displacement Death Spiral 详解,以及实战监控与避坑工具箱

4 第4章：Verifier-based RL 与 Reward 设计

从 RLHF 到 RLVR(Reinforcement Learning with Verifiable Rewards),数学/代码/工具的 reward 设计哲学,PRM vs ORM,以及 Reward Hacking 的工程防御

5 第5章：Tool RL 逐篇精读 —— Search-R1 / ToolRL / Agent-R1 / VerlTool

6+ 篇 Tool RL 里程碑论文逐篇精读:Search-R1、ToolRL、Agent-R1、VerlTool、CoSearch、LiteResearcher、Tree Search RL

6 第6章：Multi-turn RL 与 Async Rollout

Single-turn vs Multi-turn RL 本质差异,长 trajectory 的 credit assignment 难题,verl/OpenRLHF 的 async rollout 工程实现

7 第7章：Self-Improvement 与 SFT-RL Flywheel

Rejection Fine-tuning、ReST/ReST^EM、STaR、Synthetic Data、Self-play 等自我改进算法,以及 SFT → RL → 采样 → SFT → RL 飞轮的工程模式

8 第8章：RL 训练框架对比 —— verl / OpenRLHF / TRL / NeMo-RL / Unsloth / DAPO

8 个主流 RL 训练框架横评,设计哲学、能力矩阵、最简启动代码、选型决策树

9 第9章：端到端实战 —— 用 verl 训练 Qwen2.5-7B Search Agent

完整可复现实战:在 8 卡 H100 上用 verl 训练 Qwen2.5-7B Search Agent,GRPO + Async Rollout + GAIA 评测,含监控/避坑/混沌测试

学习建议

前置要求

AI Infra 全部基础 + Agent Runtime（模块六）+ 一定的 RL 数学（PG/PPO 公式）

建议先理解模块二/三的分布式训练基础，RL 训练本质是分布式训推混合 workload
第 3 章 GRPO 失败模式（含 LLD Death Spiral 论文）是生产 RL 的避坑必读
端到端实战在 verl 上训 7B Search Agent 跑 GAIA，建议至少 8 卡 H100 才能复现

模块七：Agentic RL

章节目录

学习建议

前置要求

搜索