跳到主要内容
Agentic RL

第1章:Agentic RL 是什么

为什么 2025 RL 重新崛起,SFT/DPO/RLHF/RLVR/Agentic RL 的边界,以及为什么 Agent 离不开 RL

Agentic RL RLHF RLVR GRPO DeepSeek R1

2023 年还有人说 “DPO 让 RL 退出 LLM 历史舞台”,2024 年 DeepSeek R1 用 GRPO + RLVR 把 RL 重新拉回 C 位,2025 年所有顶尖 reasoning / agent 模型都离不开 RL。这一章把”为什么 RL 又火了、它到底解决什么问题、和 SFT/DPO/RLHF 的边界在哪、Agent 为什么必须上 RL”四个问题答清楚,让你知道剩下 8 章都在解决什么。

📑 目录


1. 一段对话开场:RL 真的有必要吗

新人常问:“我已经把任务样本 SFT 进去了,RL 还能学到什么?”

考虑这个对比:

Task:用 search 工具回答”姚明的女儿 2025 年几岁?”

模型行为
SFT-only学到了 search 调用格式,但只会 1-2 跳:search(“姚明女儿”) → 拿到结果 → 回答。如果第一跳没拿到生日,就直接编。
RL-trained学到多跳推理:search(“姚明女儿”) → 没有生日 → 反思 → search(“姚明女儿出生年份”) → 拿到 2010 → 算出 2025 年 15 岁。

🌟 SFT 教会”做这种任务的标准动作”,RL 教会”在动作做错时怎么补救、怎么策略性地选择动作序列”——后者只能从环境反馈里学,SFT 数据集里看不到。

DeepSeek R1 的 paper 直白指出:纯 SFT 学不出来”长链推理 + 自我反思”——只有 RL 能涌现这种能力。这就是 2024-2025 RL 大复兴的根本原因。


2. RL × LLM 的三波浪潮

第一波:RLHF(2022-2023)

InstructGPT(ChatGPT 前身)首次大规模用 PPO + 人类偏好数据 align 模型。

人类标注 (a > b) 偏好对

训练 Reward Model R

PPO:用 R 给 policy 打分 → 优化

优点:把语言模型从”补全器”变成”对话助手” 缺点:Reward Model 训练贵、PPO 工程复杂、reward hacking

第二波:DPO(2023)

Rafailov et al. 的 DPO 论文用一个数学等价变换,直接从偏好数据训 policy,完全跳过 RL 和 reward model

LDPO=logσ(βlogπθ(ywx)πref(ywx)βlogπθ(ylx)πref(ylx))\mathcal{L}_{\text{DPO}} = -\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)

优点:简单、稳定、便宜——一时间所有 alignment 论文都改用 DPO 缺点:只适合”二选一”的偏好任务,无法处理 reasoning / 工具调用这种”答案对/错”任务

第三波:GRPO + RLVR(2024-2025)

DeepSeekMath 提出 GRPO(Group Relative Policy Optimization),DeepSeek R1 把它推到主舞台:

  • 不需要 reward model,直接用 verifier(数学答案对/错、代码 unit test 通/不通、工具是否调用成功)
  • 不需要 critic 网络,用 group-relative advantage(组内 reward 减均值除以标准差)
  • 显存比 PPO 省一半
prompt p

sample G 个 trajectory(group)

verifier 打分 → r_1, r_2, ..., r_G

A_i = (r_i - mean(r)) / std(r)   ← group-relative advantage

PPO-like clipped policy gradient

这就是 R1 / o1 / Claude 4.x 等 reasoning 大模型背后的核心算法

🍎 三波浪潮的本质:reward 信号越”客观”、训练算法越”瘦”,scale 越大


3. SFT / DPO / RLHF / RLVR / Agentic RL 边界

范式数据形态是否要 RM是否在线 rollout适合任务
SFT(x, y) 样本对模仿、风格、cold start
DPO(x, y_win, y_lose) 偏好对偏好对齐、风格优化
RLHF (PPO)偏好对 → RM对齐 + 复杂任务
RLVR (GRPO)(x, verifier)❌(用 verifier)数学/代码/工具调用,有标准答案
Agentic RL(env, verifier)✅(multi-turn)Agent 任务,需要多步决策 + 自我修正

3.1 直观比喻

范式类比
SFT学生抄写字帖
DPO老师给两种解法,学生学”哪种更优雅”
RLHF学生做题,老师打分,学生根据分数改进
RLVR学生做数学题,系统判对错,自己根据对错改进
Agentic RL学生完整解一道复杂应用题——查公式、试方法、走错路、改回来——最后系统判对错

🌟 Agentic RL = RLVR + multi-turn + tool use + 长 trajectory——这是当前最复杂、最前沿的形态。

3.2 实际配方

工业级模型(R1、o1、Claude 4.x、DeepSeek-V3+)几乎都是这一整套的组合:

Base LLM
  ↓ SFT(cold start,几十万到几百万样本)
SFT Model
  ↓ RLVR / GRPO(数学 + 代码,几万到几十万 verifiable 样本)
Reasoning Model
  ↓ Agentic RL(tool use + multi-turn,大量 rollout)
Agent Model
  ↓ DPO / RLHF(最后做风格 / 安全 alignment)
Production Model

没有”一招鲜吃遍天”,而是层层递进的组合拳


4. 为什么 Agent 必须上 RL

4.1 SFT 学不到的 4 类能力

能力为什么 SFT 学不到RL 怎么学到
多步规划SFT 数据是固定的”标准解”,没有”如果第 3 步走错了怎么办”RL 在 trajectory 层面 reward,自然学会”试错 + 改正”
自我反思训练数据里没有”我刚才错了”RL rollout 中模型可能错,verifier 给低 reward,模型学会”反思有用”
工具调用策略SFT 教”什么时候调用什么 tool”,但教不了”调用失败时换一个”RL 直接 reward 调用成功 + 答案对,失败惩罚,学到鲁棒策略
长上下文 attentionSFT 只是模仿历史 trace,不知道”哪些上下文真正有用”RL 中 reward 间接激励”专注关键信息”,涌现长 context 利用能力

4.2 R1 论文的关键发现

DeepSeek R1 paper 报告:

  • base model + SFT:推理能力有限
  • base model + RLVR(GRPO):推理长度自发增长 5-10×,自动出现”自我反思”语句(如 “Wait, let me reconsider…”、“Actually, …”、“This doesn’t seem right, let me try again”)
  • 这种 emergent self-reflection 完全不在 SFT 数据里——是 RL 自己学出来的

🔥 这就是为什么 2025 所有”reasoning”和”agent”模型都必须经过 RL 阶段——只有 RL 能解锁这些 emergent capability。

4.3 Agent 场景下的具体收益

OpenAI o1 / Claude 4.x / DeepSeek R1 / Qwen QwQ 等在以下场景比纯 SFT 强 20-50%:

场景提升来源
数学竞赛(AIME / HMMT)长链推理 + 反思
代码生成(LiveCodeBench / SWE-bench)多次调试、单测驱动
Tool calling(BFCL / TAU-bench)工具选择 + 错误恢复
Multi-hop QA(GAIA / HotpotQA)多次搜索 + 信息整合
Web agent(WebArena / OSWorld)长 trajectory + GUI 决策

5. Agentic RL 的核心循环

完整的 Agentic RL 训练 loop:

              ┌─────────────────────────────┐
              │   Base / SFT Model           │
              └───────────────┬─────────────┘


              ┌─────────────────────────────┐
              │   Rollout(vLLM 推理)         │
              │                              │
              │   for each prompt:           │
              │     for i in 1..G:           │
              │       generate trajectory_i  │
              │         ├─ thought           │
              │         ├─ tool call         │
              │         ├─ tool result       │
              │         ├─ thought           │
              │         └─ ... 直到 final     │
              └───────────────┬─────────────┘


              ┌─────────────────────────────┐
              │   Verifier(规则 / unit test  │
              │             / LLM-as-Judge) │
              │                              │
              │   r_i = verify(trajectory_i) │
              └───────────────┬─────────────┘


              ┌─────────────────────────────┐
              │   Advantage Calc             │
              │   A_i = (r_i - μ) / σ        │  ← group-relative
              └───────────────┬─────────────┘


              ┌─────────────────────────────┐
              │   Policy Gradient            │
              │   (PPO clipped + KL penalty) │
              └───────────────┬─────────────┘


              ┌─────────────────────────────┐
              │   Updated Model              │
              └───────────────┬─────────────┘

                  ↻ 回到 Rollout(几百到几千次)

每一步对应后面的章节:

  • Rollout → 第 6 章 Multi-turn + Async Rollout
  • Verifier → 第 4 章 RLVR + Reward 设计
  • Advantage / GRPO → 第 2 章 算法基础 + 第 3 章 失败模式
  • 整个 loop 的工程框架 → 第 8 章 框架对比
  • 端到端跑通 → 第 9 章 实战

6. 适用 / 不适用场景

✅ 适用 Agentic RL

场景为什么
任务有可验证的 ground truth(数学、代码、查询答案)RLVR 能 work
任务需要多步决策 / 工具调用SFT 学不到的能力
已有有限 SFT 数据,无法穷举所有路径RL 能在已知数据外探索
大规模算力(至少 8 卡 H100,理想 64+ 卡)RL 训练算力 hungry
verifier 设计能力(能写 reward 函数)reward 设计是核心

❌ 不适用

场景为什么
任务无客观对错(创意写作、风格类)用 DPO / RLHF 即可
数据量 < 1000 条RL 需要大量 rollout
算力 < 4 卡 GPURL training 太贵跑不起
任务能用 prompt engineering 解决不必上 RL
模型能力极弱(< 1B 或非 chat 基座)base 太差,RL 学不出来

🍎 判断”该不该用 RL”的灵魂三问:

  1. 我的 verifier 设计干净吗?
  2. 我的 SFT base 已经能做对 30%+ 任务了吗?(太低 RL 学不出,太高 RL 提升空间小)
  3. 我有 8 卡以上 GPU 跑至少几天吗?

三个 Yes → 上 Agentic RL;有任何一个 No → 优化 SFT / 数据 / prompt 更划算。


✅ 自我检验清单

  • R1 故事:能讲出”为什么 SFT 学不到长链推理 + 自我反思”
  • 三波浪潮:能默写 RLHF / DPO / GRPO 三波各自的特点和 limitations
  • 范式边界:能用一张表对比 SFT / DPO / RLHF / RLVR / Agentic RL
  • 完整训练栈:能写出工业模型的 5 阶段配方(Base → SFT → RLVR → Agentic RL → DPO/RLHF)
  • 4 类 SFT 学不到的能力:能默写并各举一例
  • 核心循环:能画出 Agentic RL 的 6 步 loop
  • 三问判断:面对一个具体任务,能回答”该不该上 RL”的灵魂三问
  • emergent capability:能讲出 R1 论文中 self-reflection 自然涌现的现象
  • 算力门槛:能解释为什么 RL 起步至少需要 8 卡 H100

📚 参考资料

经典论文

综述

入门博客

  • Beyond PPO: New Wave of Policy Optimization for LLM Post-Training:ydnyshhh.github.io
  • Anatomy of RL Frameworks:hanifleo.com
  • RL Posttraining for Tool-Using Agents (2026):Zylos