第1章：Agentic RL 是什么

2023 年还有人说 “DPO 让 RL 退出 LLM 历史舞台”,2024 年 DeepSeek R1 用 GRPO + RLVR 把 RL 重新拉回 C 位,2025 年所有顶尖 reasoning / agent 模型都离不开 RL。这一章把”为什么 RL 又火了、它到底解决什么问题、和 SFT/DPO/RLHF 的边界在哪、Agent 为什么必须上 RL”四个问题答清楚,让你知道剩下 8 章都在解决什么。

📑 目录

1. 一段对话开场:RL 真的有必要吗
2. RL × LLM 的三波浪潮
3. SFT / DPO / RLHF / RLVR / Agentic RL 边界
4. 为什么 Agent 必须上 RL
5. Agentic RL 的核心循环
6. 适用 / 不适用场景
自我检验清单
参考资料

1. 一段对话开场:RL 真的有必要吗

新人常问:“我已经把任务样本 SFT 进去了,RL 还能学到什么?”

考虑这个对比:

Task:用 search 工具回答”姚明的女儿 2025 年几岁?”

模型	行为
SFT-only	学到了 search 调用格式,但只会 1-2 跳:search(“姚明女儿”) → 拿到结果 → 回答。如果第一跳没拿到生日,就直接编。
RL-trained	学到多跳推理:search(“姚明女儿”) → 没有生日 → 反思 → search(“姚明女儿出生年份”) → 拿到 2010 → 算出 2025 年 15 岁。

🌟 SFT 教会”做这种任务的标准动作”,RL 教会”在动作做错时怎么补救、怎么策略性地选择动作序列”——后者只能从环境反馈里学,SFT 数据集里看不到。

DeepSeek R1 的 paper 直白指出:纯 SFT 学不出来”长链推理 + 自我反思”——只有 RL 能涌现这种能力。这就是 2024-2025 RL 大复兴的根本原因。

2. RL × LLM 的三波浪潮

第一波:RLHF(2022-2023)

InstructGPT(ChatGPT 前身)首次大规模用 PPO + 人类偏好数据 align 模型。

人类标注 (a > b) 偏好对
   ↓
训练 Reward Model R
   ↓
PPO:用 R 给 policy 打分 → 优化

优点:把语言模型从”补全器”变成”对话助手” 缺点:Reward Model 训练贵、PPO 工程复杂、reward hacking

第二波:DPO(2023)

Rafailov et al. 的 DPO 论文用一个数学等价变换,直接从偏好数据训 policy,完全跳过 RL 和 reward model。

\mathcal{L}_{\text{DPO}} = -\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)

优点:简单、稳定、便宜——一时间所有 alignment 论文都改用 DPO 缺点:只适合”二选一”的偏好任务,无法处理 reasoning / 工具调用这种”答案对/错”任务

第三波:GRPO + RLVR(2024-2025)

DeepSeekMath 提出 GRPO(Group Relative Policy Optimization),DeepSeek R1 把它推到主舞台:

不需要 reward model,直接用 verifier(数学答案对/错、代码 unit test 通/不通、工具是否调用成功)
不需要 critic 网络,用 group-relative advantage(组内 reward 减均值除以标准差)
显存比 PPO 省一半

prompt p
   ↓
sample G 个 trajectory(group)
   ↓
verifier 打分 → r_1, r_2, ..., r_G
   ↓
A_i = (r_i - mean(r)) / std(r)   ← group-relative advantage
   ↓
PPO-like clipped policy gradient

这就是 R1 / o1 / Claude 4.x 等 reasoning 大模型背后的核心算法。

🍎 三波浪潮的本质:reward 信号越”客观”、训练算法越”瘦”,scale 越大。

3. SFT / DPO / RLHF / RLVR / Agentic RL 边界

范式	数据形态	是否要 RM	是否在线 rollout	适合任务
SFT	(x, y) 样本对	❌	❌	模仿、风格、cold start
DPO	(x, y_win, y_lose) 偏好对	❌	❌	偏好对齐、风格优化
RLHF (PPO)	偏好对 → RM	✅	✅	对齐 + 复杂任务
RLVR (GRPO)	(x, verifier)	❌(用 verifier)	✅	数学/代码/工具调用,有标准答案
Agentic RL	(env, verifier)	❌	✅(multi-turn)	Agent 任务,需要多步决策 + 自我修正

3.1 直观比喻

范式	类比
SFT	学生抄写字帖
DPO	老师给两种解法,学生学”哪种更优雅”
RLHF	学生做题,老师打分,学生根据分数改进
RLVR	学生做数学题,系统判对错,自己根据对错改进
Agentic RL	学生完整解一道复杂应用题——查公式、试方法、走错路、改回来——最后系统判对错

🌟 Agentic RL = RLVR + multi-turn + tool use + 长 trajectory——这是当前最复杂、最前沿的形态。

3.2 实际配方

工业级模型(R1、o1、Claude 4.x、DeepSeek-V3+)几乎都是这一整套的组合:

Base LLM
  ↓ SFT(cold start,几十万到几百万样本)
SFT Model
  ↓ RLVR / GRPO(数学 + 代码,几万到几十万 verifiable 样本)
Reasoning Model
  ↓ Agentic RL(tool use + multi-turn,大量 rollout)
Agent Model
  ↓ DPO / RLHF(最后做风格 / 安全 alignment)
Production Model

没有”一招鲜吃遍天”,而是层层递进的组合拳。

4. 为什么 Agent 必须上 RL

4.1 SFT 学不到的 4 类能力

能力	为什么 SFT 学不到	RL 怎么学到
多步规划	SFT 数据是固定的”标准解”,没有”如果第 3 步走错了怎么办”	RL 在 trajectory 层面 reward,自然学会”试错 + 改正”
自我反思	训练数据里没有”我刚才错了”	RL rollout 中模型可能错,verifier 给低 reward,模型学会”反思有用”
工具调用策略	SFT 教”什么时候调用什么 tool”,但教不了”调用失败时换一个”	RL 直接 reward 调用成功 + 答案对,失败惩罚,学到鲁棒策略
长上下文 attention	SFT 只是模仿历史 trace,不知道”哪些上下文真正有用”	RL 中 reward 间接激励”专注关键信息”,涌现长 context 利用能力

4.2 R1 论文的关键发现

DeepSeek R1 paper 报告:

base model + SFT:推理能力有限
base model + RLVR(GRPO):推理长度自发增长 5-10×,自动出现”自我反思”语句(如 “Wait, let me reconsider…”、“Actually, …”、“This doesn’t seem right, let me try again”)
这种 emergent self-reflection 完全不在 SFT 数据里——是 RL 自己学出来的

🔥 这就是为什么 2025 所有”reasoning”和”agent”模型都必须经过 RL 阶段——只有 RL 能解锁这些 emergent capability。

4.3 Agent 场景下的具体收益

OpenAI o1 / Claude 4.x / DeepSeek R1 / Qwen QwQ 等在以下场景比纯 SFT 强 20-50%:

场景	提升来源
数学竞赛(AIME / HMMT)	长链推理 + 反思
代码生成(LiveCodeBench / SWE-bench)	多次调试、单测驱动
Tool calling(BFCL / TAU-bench)	工具选择 + 错误恢复
Multi-hop QA(GAIA / HotpotQA)	多次搜索 + 信息整合
Web agent(WebArena / OSWorld)	长 trajectory + GUI 决策

5. Agentic RL 的核心循环

完整的 Agentic RL 训练 loop:

              ┌─────────────────────────────┐
              │   Base / SFT Model           │
              └───────────────┬─────────────┘
                              │
                              ▼
              ┌─────────────────────────────┐
              │   Rollout(vLLM 推理)         │
              │                              │
              │   for each prompt:           │
              │     for i in 1..G:           │
              │       generate trajectory_i  │
              │         ├─ thought           │
              │         ├─ tool call         │
              │         ├─ tool result       │
              │         ├─ thought           │
              │         └─ ... 直到 final     │
              └───────────────┬─────────────┘
                              │
                              ▼
              ┌─────────────────────────────┐
              │   Verifier(规则 / unit test  │
              │             / LLM-as-Judge) │
              │                              │
              │   r_i = verify(trajectory_i) │
              └───────────────┬─────────────┘
                              │
                              ▼
              ┌─────────────────────────────┐
              │   Advantage Calc             │
              │   A_i = (r_i - μ) / σ        │  ← group-relative
              └───────────────┬─────────────┘
                              │
                              ▼
              ┌─────────────────────────────┐
              │   Policy Gradient            │
              │   (PPO clipped + KL penalty) │
              └───────────────┬─────────────┘
                              │
                              ▼
              ┌─────────────────────────────┐
              │   Updated Model              │
              └───────────────┬─────────────┘
                              │
                  ↻ 回到 Rollout(几百到几千次)

每一步对应后面的章节:

Rollout → 第 6 章 Multi-turn + Async Rollout
Verifier → 第 4 章 RLVR + Reward 设计
Advantage / GRPO → 第 2 章算法基础 + 第 3 章失败模式
整个 loop 的工程框架 → 第 8 章框架对比
端到端跑通 → 第 9 章实战

6. 适用 / 不适用场景

✅ 适用 Agentic RL

场景	为什么
任务有可验证的 ground truth(数学、代码、查询答案)	RLVR 能 work
任务需要多步决策 / 工具调用	SFT 学不到的能力
已有有限 SFT 数据,无法穷举所有路径	RL 能在已知数据外探索
有大规模算力(至少 8 卡 H100,理想 64+ 卡)	RL 训练算力 hungry
有verifier 设计能力(能写 reward 函数)	reward 设计是核心

❌ 不适用

场景	为什么
任务无客观对错(创意写作、风格类)	用 DPO / RLHF 即可
数据量 < 1000 条	RL 需要大量 rollout
算力 < 4 卡 GPU	RL training 太贵跑不起
任务能用 prompt engineering 解决	不必上 RL
模型能力极弱(< 1B 或非 chat 基座)	base 太差,RL 学不出来

🍎 判断”该不该用 RL”的灵魂三问:

我的 verifier 设计干净吗?
我的 SFT base 已经能做对 30%+ 任务了吗?(太低 RL 学不出,太高 RL 提升空间小)
我有 8 卡以上 GPU 跑至少几天吗?

三个 Yes → 上 Agentic RL;有任何一个 No → 优化 SFT / 数据 / prompt 更划算。

✅ 自我检验清单

R1 故事:能讲出”为什么 SFT 学不到长链推理 + 自我反思”
三波浪潮:能默写 RLHF / DPO / GRPO 三波各自的特点和 limitations
范式边界:能用一张表对比 SFT / DPO / RLHF / RLVR / Agentic RL
完整训练栈:能写出工业模型的 5 阶段配方(Base → SFT → RLVR → Agentic RL → DPO/RLHF)
4 类 SFT 学不到的能力:能默写并各举一例
核心循环:能画出 Agentic RL 的 6 步 loop
三问判断:面对一个具体任务,能回答”该不该上 RL”的灵魂三问
emergent capability:能讲出 R1 论文中 self-reflection 自然涌现的现象
算力门槛:能解释为什么 RL 起步至少需要 8 卡 H100

📚 参考资料

经典论文

InstructGPT / RLHF (Ouyang et al., 2022):arXiv 2203.02155
DPO (Rafailov et al., 2023):arXiv 2305.18290
DeepSeekMath / GRPO (2024):arXiv 2402.03300
DeepSeek R1 (2025):arXiv 2501.12948 ⭐
OpenAI o1 系统说明:OpenAI 官方博客

综述

The Landscape of Agentic RL for LLMs: A Survey (2025):arXiv 2509.02547
Agentic RL Training Recipes:github.com/blacksnail789521/Agentic-RL-Training-Recipes

入门博客

Beyond PPO: New Wave of Policy Optimization for LLM Post-Training:ydnyshhh.github.io
Anatomy of RL Frameworks:hanifleo.com
RL Posttraining for Tool-Using Agents (2026):Zylos

搜索