Agent Safety / Red Teaming 学习路线 🛡️

Agent Safety 是 LLM 时代特有的工程领域 ——它不是把传统网络安全套用到 LLM,而是要应对 LLM 特有的”自然语言攻击面”:Jailbreak、Prompt Injection、Misalignment、Reward Hacking。当 agent 能自主执行任务,这些风险放大 10× ——一次 prompt 注入可能被 agent 转化成数十次 API 调用、数百次文件读写。这一章带你从威胁建模一路走到生产级红队。

📑 目录

一、Agent Safety 是什么
二、5 章导览
三、三大子方向时间线
四、与前 11 模块的关系
五、未来趋势(2026-2028)
六、推荐阅读路径

一、Agent Safety 是什么

Agent Safety = 让 LLM Agent 在对的方向上发挥能力,不被滥用、不出意外、不偏离用户意图。

三层威胁模型(Anthropic / DeepMind 共识):

┌─────────────────────────────────────────────────────┐
│  Layer 3 — Misalignment(目标偏离)                  │
│   模型有自己的目标,与人类意图错位                   │
│   例:奖励黑客、欺骗对齐、Sleeper Agent              │
├─────────────────────────────────────────────────────┤
│  Layer 2 — Misuse(恶意使用)                        │
│   攻击者诱导模型做坏事                               │
│   例:Jailbreak、Prompt Injection、生物武器辅助       │
├─────────────────────────────────────────────────────┤
│  Layer 1 — Accidents(意外失败)                     │
│   模型在合规情况下也会出错                           │
│   例:Hallucination、Sycophancy、Unsafe code         │
└─────────────────────────────────────────────────────┘

Agent 时代的特殊性:

维度	单纯 LLM	LLM Agent
影响半径	一次回复	一次任务 = N 次 API/file/web 操作
攻击放大	1×	10×-100×
失败可见性	用户立即看到	任务跑完才发现
反应窗口	实时	延迟分钟到小时

结论:Agent 安全 ≠ LLM 安全 ——它是 LLM 安全 + 工作流安全 + 工具安全的复合体。

二、5 章导览

章	主题	核心内容
0	学习路线	本文
1	Agent 安全是什么 🛡️	三层威胁、Agent 特殊攻击面、与传统安全/LLM Safety 差异
2	Jailbreak 与 Prompt Injection ⚔️	GCG/PAIR/TAP/Crescendo/AutoDAN 攻击 + Constitutional AI/Guard model 等防御
3	Alignment 方法论 🧭	RLHF/RLAIF、Constitutional AI、Debate、Scalable Oversight、Sleeper Agents、Anthropic RSP/OpenAI Preparedness
4	Red Teaming 实战 🎯	HarmBench/JailbreakBench/AdvBench、garak 框架、自动化 red team pipeline、合规标准
5	端到端实战 ⭐	用 garak + HarmBench 给一个 Agent 做完整 red team report,加 Constitutional 防御层重测

三、三大子方向时间线

3.1 Alignment(对齐研究)

2017  Christiano et al. RLHF 原始论文
2020  Stiennon et al. RLHF for summarization
2022-03  InstructGPT(OpenAI)            ── RLHF 工程化
2022-12  Constitutional AI(Anthropic) ⭐ ── RLAIF 范式
2023-05  Anthropic RSP v1.0
2023-12  Sleeper Agents(arXiv 2401.05566)
2024-Q1  OpenAI Superalignment 团队解散   ── 行业地震
2024-08  Anthropic RSP v2.0(ASL-3)
2025-Q3  Anthropic ASL-3 系统部署
2026-Q1  Anthropic ASL-4 框架预览
2026-Q1  EU AI Act 全面生效

3.2 Jailbreak / Prompt Injection

2022-09  Riley Goodside 首次系统记录 prompt injection
2023-07  GCG(arXiv 2307.15043)⭐         ── 自动化 universal jailbreak
2023-10  PAIR(arXiv 2310.08419)          ── black-box 攻击
2024-02  TAP(arXiv 2312.02119)           ── tree of attacks
2024-04  Crescendo(arXiv 2404.01833)     ── 多轮渐进 jailbreak
2024-05  HarmBench(arXiv 2402.04249)     ── 标准化评测
2024-06  AutoDAN-2 / 各家针对性攻击
2024-10  PAIR 工业化 — Anthropic 自家用
2025-Q1  Indirect Prompt Injection 大爆发(模块九/十的攻击面)
2025-Q4  Multi-modal Jailbreak(图/音 frame attack)
2026-Q1  Agentic Prompt Injection 系统化研究

3.3 Red Teaming / 评测

2022-09  Anthropic Red Team paper(arXiv 2209.07858)
2023-08  HarmBench
2024-02  JailbreakBench
2024-06  AdvBench / RealToxicityPrompts
2024-09  garak 框架(NVIDIA)             ── 开源红队工具
2025-Q1  OpenAI Preparedness Framework   ── 系统化评估
2025-Q3  METR / Apollo Research 独立评估
2026-Q1  Anthropic Red Team report 季度公开

四、与前 11 模块的关系

模块七 Agentic RL    ─→ Reward Hacking 是 RL 安全核心(本模块第 3 章细讲)
模块八 Agent Eval    ─→ HarmBench / JailbreakBench 也是 eval 一部分
模块九 Computer Use  ─→ Computer Use 风险(屏幕截图 prompt injection)
模块十 Code Agents   ─→ Code Agent 风险(repo 里藏指令、PR 里挂攻击)
模块十一 Multi-Modal ─→ 图/音/视频里隐藏攻击 payload(2025 新攻击面)

模块十二 Agent Safety = 把以上模块的安全风险统一起来,系统讲攻防与对齐

特别强调: