跳到主要内容
🎯 Agentic RL 9 篇文章 · 9 个章节

模块七:Agentic RL

从 PG/PPO/GRPO 到 RLVR、Tool RL、Multi-turn Async Rollout,再到 Self-Improvement Flywheel、verl/OpenRLHF 框架对比与端到端 Search Agent 训练实战,系统掌握 2025-2026 让 LLM Agent 学会自我改进的强化学习栈。

开始学习

章节目录

为什么 2025 RL 重新崛起,SFT/DPO/RLHF/RLVR/Agentic RL 的边界,以及为什么 Agent 离不开 RL
5 个核心 RL 算法递进讲透:Policy Gradient / Actor-Critic / PPO / DPO / GRPO,以及 GRPO 为什么主导 2025 LLM 后训练
Entropy collapse / Advantage collapse / KL drift / Lazy Likelihood Displacement Death Spiral 详解,以及实战监控与避坑工具箱
从 RLHF 到 RLVR(Reinforcement Learning with Verifiable Rewards),数学/代码/工具的 reward 设计哲学,PRM vs ORM,以及 Reward Hacking 的工程防御
6+ 篇 Tool RL 里程碑论文逐篇精读:Search-R1、ToolRL、Agent-R1、VerlTool、CoSearch、LiteResearcher、Tree Search RL
Single-turn vs Multi-turn RL 本质差异,长 trajectory 的 credit assignment 难题,verl/OpenRLHF 的 async rollout 工程实现
Rejection Fine-tuning、ReST/ReST^EM、STaR、Synthetic Data、Self-play 等自我改进算法,以及 SFT → RL → 采样 → SFT → RL 飞轮的工程模式
8 个主流 RL 训练框架横评,设计哲学、能力矩阵、最简启动代码、选型决策树
完整可复现实战:在 8 卡 H100 上用 verl 训练 Qwen2.5-7B Search Agent,GRPO + Async Rollout + GAIA 评测,含监控/避坑/混沌测试

学习建议

前置要求

AI Infra 全部基础 + Agent Runtime(模块六)+ 一定的 RL 数学(PG/PPO 公式)

  • 建议先理解模块二/三的分布式训练基础,RL 训练本质是分布式训推混合 workload
  • 第 3 章 GRPO 失败模式(含 LLD Death Spiral 论文)是生产 RL 的避坑必读
  • 端到端实战在 verl 上训 7B Search Agent 跑 GAIA,建议至少 8 卡 H100 才能复现