第1章:Agentic RL 是什么
为什么 2025 RL 重新崛起,SFT/DPO/RLHF/RLVR/Agentic RL 的边界,以及为什么 Agent 离不开 RL
2023 年还有人说 “DPO 让 RL 退出 LLM 历史舞台”,2024 年 DeepSeek R1 用 GRPO + RLVR 把 RL 重新拉回 C 位,2025 年所有顶尖 reasoning / agent 模型都离不开 RL。这一章把”为什么 RL 又火了、它到底解决什么问题、和 SFT/DPO/RLHF 的边界在哪、Agent 为什么必须上 RL”四个问题答清楚,让你知道剩下 8 章都在解决什么。
📑 目录
- 1. 一段对话开场:RL 真的有必要吗
- 2. RL × LLM 的三波浪潮
- 3. SFT / DPO / RLHF / RLVR / Agentic RL 边界
- 4. 为什么 Agent 必须上 RL
- 5. Agentic RL 的核心循环
- 6. 适用 / 不适用场景
- 自我检验清单
- 参考资料
1. 一段对话开场:RL 真的有必要吗
新人常问:“我已经把任务样本 SFT 进去了,RL 还能学到什么?”
考虑这个对比:
Task:用 search 工具回答”姚明的女儿 2025 年几岁?”
| 模型 | 行为 |
|---|---|
| SFT-only | 学到了 search 调用格式,但只会 1-2 跳:search(“姚明女儿”) → 拿到结果 → 回答。如果第一跳没拿到生日,就直接编。 |
| RL-trained | 学到多跳推理:search(“姚明女儿”) → 没有生日 → 反思 → search(“姚明女儿出生年份”) → 拿到 2010 → 算出 2025 年 15 岁。 |
🌟 SFT 教会”做这种任务的标准动作”,RL 教会”在动作做错时怎么补救、怎么策略性地选择动作序列”——后者只能从环境反馈里学,SFT 数据集里看不到。
DeepSeek R1 的 paper 直白指出:纯 SFT 学不出来”长链推理 + 自我反思”——只有 RL 能涌现这种能力。这就是 2024-2025 RL 大复兴的根本原因。
2. RL × LLM 的三波浪潮
第一波:RLHF(2022-2023)
InstructGPT(ChatGPT 前身)首次大规模用 PPO + 人类偏好数据 align 模型。
人类标注 (a > b) 偏好对
↓
训练 Reward Model R
↓
PPO:用 R 给 policy 打分 → 优化
优点:把语言模型从”补全器”变成”对话助手” 缺点:Reward Model 训练贵、PPO 工程复杂、reward hacking
第二波:DPO(2023)
Rafailov et al. 的 DPO 论文用一个数学等价变换,直接从偏好数据训 policy,完全跳过 RL 和 reward model。
优点:简单、稳定、便宜——一时间所有 alignment 论文都改用 DPO 缺点:只适合”二选一”的偏好任务,无法处理 reasoning / 工具调用这种”答案对/错”任务
第三波:GRPO + RLVR(2024-2025)
DeepSeekMath 提出 GRPO(Group Relative Policy Optimization),DeepSeek R1 把它推到主舞台:
- 不需要 reward model,直接用 verifier(数学答案对/错、代码 unit test 通/不通、工具是否调用成功)
- 不需要 critic 网络,用 group-relative advantage(组内 reward 减均值除以标准差)
- 显存比 PPO 省一半
prompt p
↓
sample G 个 trajectory(group)
↓
verifier 打分 → r_1, r_2, ..., r_G
↓
A_i = (r_i - mean(r)) / std(r) ← group-relative advantage
↓
PPO-like clipped policy gradient
这就是 R1 / o1 / Claude 4.x 等 reasoning 大模型背后的核心算法。
🍎 三波浪潮的本质:reward 信号越”客观”、训练算法越”瘦”,scale 越大。
3. SFT / DPO / RLHF / RLVR / Agentic RL 边界
| 范式 | 数据形态 | 是否要 RM | 是否在线 rollout | 适合任务 |
|---|---|---|---|---|
| SFT | (x, y) 样本对 | ❌ | ❌ | 模仿、风格、cold start |
| DPO | (x, y_win, y_lose) 偏好对 | ❌ | ❌ | 偏好对齐、风格优化 |
| RLHF (PPO) | 偏好对 → RM | ✅ | ✅ | 对齐 + 复杂任务 |
| RLVR (GRPO) | (x, verifier) | ❌(用 verifier) | ✅ | 数学/代码/工具调用,有标准答案 |
| Agentic RL | (env, verifier) | ❌ | ✅(multi-turn) | Agent 任务,需要多步决策 + 自我修正 |
3.1 直观比喻
| 范式 | 类比 |
|---|---|
| SFT | 学生抄写字帖 |
| DPO | 老师给两种解法,学生学”哪种更优雅” |
| RLHF | 学生做题,老师打分,学生根据分数改进 |
| RLVR | 学生做数学题,系统判对错,自己根据对错改进 |
| Agentic RL | 学生完整解一道复杂应用题——查公式、试方法、走错路、改回来——最后系统判对错 |
🌟 Agentic RL = RLVR + multi-turn + tool use + 长 trajectory——这是当前最复杂、最前沿的形态。
3.2 实际配方
工业级模型(R1、o1、Claude 4.x、DeepSeek-V3+)几乎都是这一整套的组合:
Base LLM
↓ SFT(cold start,几十万到几百万样本)
SFT Model
↓ RLVR / GRPO(数学 + 代码,几万到几十万 verifiable 样本)
Reasoning Model
↓ Agentic RL(tool use + multi-turn,大量 rollout)
Agent Model
↓ DPO / RLHF(最后做风格 / 安全 alignment)
Production Model
没有”一招鲜吃遍天”,而是层层递进的组合拳。
4. 为什么 Agent 必须上 RL
4.1 SFT 学不到的 4 类能力
| 能力 | 为什么 SFT 学不到 | RL 怎么学到 |
|---|---|---|
| 多步规划 | SFT 数据是固定的”标准解”,没有”如果第 3 步走错了怎么办” | RL 在 trajectory 层面 reward,自然学会”试错 + 改正” |
| 自我反思 | 训练数据里没有”我刚才错了” | RL rollout 中模型可能错,verifier 给低 reward,模型学会”反思有用” |
| 工具调用策略 | SFT 教”什么时候调用什么 tool”,但教不了”调用失败时换一个” | RL 直接 reward 调用成功 + 答案对,失败惩罚,学到鲁棒策略 |
| 长上下文 attention | SFT 只是模仿历史 trace,不知道”哪些上下文真正有用” | RL 中 reward 间接激励”专注关键信息”,涌现长 context 利用能力 |
4.2 R1 论文的关键发现
DeepSeek R1 paper 报告:
- base model + SFT:推理能力有限
- base model + RLVR(GRPO):推理长度自发增长 5-10×,自动出现”自我反思”语句(如 “Wait, let me reconsider…”、“Actually, …”、“This doesn’t seem right, let me try again”)
- 这种 emergent self-reflection 完全不在 SFT 数据里——是 RL 自己学出来的
🔥 这就是为什么 2025 所有”reasoning”和”agent”模型都必须经过 RL 阶段——只有 RL 能解锁这些 emergent capability。
4.3 Agent 场景下的具体收益
OpenAI o1 / Claude 4.x / DeepSeek R1 / Qwen QwQ 等在以下场景比纯 SFT 强 20-50%:
| 场景 | 提升来源 |
|---|---|
| 数学竞赛(AIME / HMMT) | 长链推理 + 反思 |
| 代码生成(LiveCodeBench / SWE-bench) | 多次调试、单测驱动 |
| Tool calling(BFCL / TAU-bench) | 工具选择 + 错误恢复 |
| Multi-hop QA(GAIA / HotpotQA) | 多次搜索 + 信息整合 |
| Web agent(WebArena / OSWorld) | 长 trajectory + GUI 决策 |
5. Agentic RL 的核心循环
完整的 Agentic RL 训练 loop:
┌─────────────────────────────┐
│ Base / SFT Model │
└───────────────┬─────────────┘
│
▼
┌─────────────────────────────┐
│ Rollout(vLLM 推理) │
│ │
│ for each prompt: │
│ for i in 1..G: │
│ generate trajectory_i │
│ ├─ thought │
│ ├─ tool call │
│ ├─ tool result │
│ ├─ thought │
│ └─ ... 直到 final │
└───────────────┬─────────────┘
│
▼
┌─────────────────────────────┐
│ Verifier(规则 / unit test │
│ / LLM-as-Judge) │
│ │
│ r_i = verify(trajectory_i) │
└───────────────┬─────────────┘
│
▼
┌─────────────────────────────┐
│ Advantage Calc │
│ A_i = (r_i - μ) / σ │ ← group-relative
└───────────────┬─────────────┘
│
▼
┌─────────────────────────────┐
│ Policy Gradient │
│ (PPO clipped + KL penalty) │
└───────────────┬─────────────┘
│
▼
┌─────────────────────────────┐
│ Updated Model │
└───────────────┬─────────────┘
│
↻ 回到 Rollout(几百到几千次)
每一步对应后面的章节:
- Rollout → 第 6 章 Multi-turn + Async Rollout
- Verifier → 第 4 章 RLVR + Reward 设计
- Advantage / GRPO → 第 2 章 算法基础 + 第 3 章 失败模式
- 整个 loop 的工程框架 → 第 8 章 框架对比
- 端到端跑通 → 第 9 章 实战
6. 适用 / 不适用场景
✅ 适用 Agentic RL
| 场景 | 为什么 |
|---|---|
| 任务有可验证的 ground truth(数学、代码、查询答案) | RLVR 能 work |
| 任务需要多步决策 / 工具调用 | SFT 学不到的能力 |
| 已有有限 SFT 数据,无法穷举所有路径 | RL 能在已知数据外探索 |
| 有大规模算力(至少 8 卡 H100,理想 64+ 卡) | RL 训练算力 hungry |
| 有verifier 设计能力(能写 reward 函数) | reward 设计是核心 |
❌ 不适用
| 场景 | 为什么 |
|---|---|
| 任务无客观对错(创意写作、风格类) | 用 DPO / RLHF 即可 |
| 数据量 < 1000 条 | RL 需要大量 rollout |
| 算力 < 4 卡 GPU | RL training 太贵跑不起 |
| 任务能用 prompt engineering 解决 | 不必上 RL |
| 模型能力极弱(< 1B 或非 chat 基座) | base 太差,RL 学不出来 |
🍎 判断”该不该用 RL”的灵魂三问:
- 我的 verifier 设计干净吗?
- 我的 SFT base 已经能做对 30%+ 任务了吗?(太低 RL 学不出,太高 RL 提升空间小)
- 我有 8 卡以上 GPU 跑至少几天吗?
三个 Yes → 上 Agentic RL;有任何一个 No → 优化 SFT / 数据 / prompt 更划算。
✅ 自我检验清单
- R1 故事:能讲出”为什么 SFT 学不到长链推理 + 自我反思”
- 三波浪潮:能默写 RLHF / DPO / GRPO 三波各自的特点和 limitations
- 范式边界:能用一张表对比 SFT / DPO / RLHF / RLVR / Agentic RL
- 完整训练栈:能写出工业模型的 5 阶段配方(Base → SFT → RLVR → Agentic RL → DPO/RLHF)
- 4 类 SFT 学不到的能力:能默写并各举一例
- 核心循环:能画出 Agentic RL 的 6 步 loop
- 三问判断:面对一个具体任务,能回答”该不该上 RL”的灵魂三问
- emergent capability:能讲出 R1 论文中 self-reflection 自然涌现的现象
- 算力门槛:能解释为什么 RL 起步至少需要 8 卡 H100
📚 参考资料
经典论文
- InstructGPT / RLHF (Ouyang et al., 2022):arXiv 2203.02155
- DPO (Rafailov et al., 2023):arXiv 2305.18290
- DeepSeekMath / GRPO (2024):arXiv 2402.03300
- DeepSeek R1 (2025):arXiv 2501.12948 ⭐
- OpenAI o1 系统说明:OpenAI 官方博客
综述
- The Landscape of Agentic RL for LLMs: A Survey (2025):arXiv 2509.02547
- Agentic RL Training Recipes:github.com/blacksnail789521/Agentic-RL-Training-Recipes
入门博客
- Beyond PPO: New Wave of Policy Optimization for LLM Post-Training:ydnyshhh.github.io
- Anatomy of RL Frameworks:hanifleo.com
- RL Posttraining for Tool-Using Agents (2026):Zylos