跳到主要内容
Agent Safety

Agent Safety / Red Teaming 学习路线

模块十二 Agent Safety 全景导览 — 5 章导览、Alignment/Jailbreak/Red Teaming 三大子方向时间线、与前 11 模块的关系、未来趋势

learning-path agent-safety alignment jailbreak red-teaming constitutional-ai rsp

Agent Safety / Red Teaming 学习路线 🛡️

Agent Safety 是 LLM 时代特有的工程领域 ——它不是把传统网络安全套用到 LLM,而是要应对 LLM 特有的”自然语言攻击面”:Jailbreak、Prompt Injection、Misalignment、Reward Hacking。当 agent 能自主执行任务,这些风险放大 10× ——一次 prompt 注入可能被 agent 转化成数十次 API 调用、数百次文件读写。这一章带你从威胁建模一路走到生产级红队。

📑 目录


一、Agent Safety 是什么

Agent Safety = 让 LLM Agent 在对的方向上发挥能力,不被滥用、不出意外、不偏离用户意图

三层威胁模型(Anthropic / DeepMind 共识):

┌─────────────────────────────────────────────────────┐
│  Layer 3 — Misalignment(目标偏离)                  │
│   模型有自己的目标,与人类意图错位                   │
│   例:奖励黑客、欺骗对齐、Sleeper Agent              │
├─────────────────────────────────────────────────────┤
│  Layer 2 — Misuse(恶意使用)                        │
│   攻击者诱导模型做坏事                               │
│   例:Jailbreak、Prompt Injection、生物武器辅助       │
├─────────────────────────────────────────────────────┤
│  Layer 1 — Accidents(意外失败)                     │
│   模型在合规情况下也会出错                           │
│   例:Hallucination、Sycophancy、Unsafe code         │
└─────────────────────────────────────────────────────┘

Agent 时代的特殊性:

维度单纯 LLMLLM Agent
影响半径一次回复一次任务 = N 次 API/file/web 操作
攻击放大10×-100×
失败可见性用户立即看到任务跑完才发现
反应窗口实时延迟分钟到小时

结论:Agent 安全 ≠ LLM 安全 ——它是 LLM 安全 + 工作流安全 + 工具安全的复合体。


二、5 章导览

主题核心内容
0学习路线本文
1Agent 安全是什么 🛡️三层威胁、Agent 特殊攻击面、与传统安全/LLM Safety 差异
2Jailbreak 与 Prompt Injection ⚔️GCG/PAIR/TAP/Crescendo/AutoDAN 攻击 + Constitutional AI/Guard model 等防御
3Alignment 方法论 🧭RLHF/RLAIF、Constitutional AI、Debate、Scalable Oversight、Sleeper Agents、Anthropic RSP/OpenAI Preparedness
4Red Teaming 实战 🎯HarmBench/JailbreakBench/AdvBench、garak 框架、自动化 red team pipeline、合规标准
5端到端实战用 garak + HarmBench 给一个 Agent 做完整 red team report,加 Constitutional 防御层重测

三、三大子方向时间线

3.1 Alignment(对齐研究)

2017  Christiano et al. RLHF 原始论文
2020  Stiennon et al. RLHF for summarization
2022-03  InstructGPT(OpenAI)            ── RLHF 工程化
2022-12  Constitutional AI(Anthropic) ⭐ ── RLAIF 范式
2023-05  Anthropic RSP v1.0
2023-12  Sleeper Agents(arXiv 2401.05566)
2024-Q1  OpenAI Superalignment 团队解散   ── 行业地震
2024-08  Anthropic RSP v2.0(ASL-3)
2025-Q3  Anthropic ASL-3 系统部署
2026-Q1  Anthropic ASL-4 框架预览
2026-Q1  EU AI Act 全面生效

3.2 Jailbreak / Prompt Injection

2022-09  Riley Goodside 首次系统记录 prompt injection
2023-07  GCG(arXiv 2307.15043)⭐         ── 自动化 universal jailbreak
2023-10  PAIR(arXiv 2310.08419)          ── black-box 攻击
2024-02  TAP(arXiv 2312.02119)           ── tree of attacks
2024-04  Crescendo(arXiv 2404.01833)     ── 多轮渐进 jailbreak
2024-05  HarmBench(arXiv 2402.04249)     ── 标准化评测
2024-06  AutoDAN-2 / 各家针对性攻击
2024-10  PAIR 工业化 — Anthropic 自家用
2025-Q1  Indirect Prompt Injection 大爆发(模块九/十的攻击面)
2025-Q4  Multi-modal Jailbreak(图/音 frame attack)
2026-Q1  Agentic Prompt Injection 系统化研究

3.3 Red Teaming / 评测

2022-09  Anthropic Red Team paper(arXiv 2209.07858)
2023-08  HarmBench
2024-02  JailbreakBench
2024-06  AdvBench / RealToxicityPrompts
2024-09  garak 框架(NVIDIA)             ── 开源红队工具
2025-Q1  OpenAI Preparedness Framework   ── 系统化评估
2025-Q3  METR / Apollo Research 独立评估
2026-Q1  Anthropic Red Team report 季度公开

四、与前 11 模块的关系

模块七 Agentic RL    ─→ Reward Hacking 是 RL 安全核心(本模块第 3 章细讲)
模块八 Agent Eval    ─→ HarmBench / JailbreakBench 也是 eval 一部分
模块九 Computer Use  ─→ Computer Use 风险(屏幕截图 prompt injection)
模块十 Code Agents   ─→ Code Agent 风险(repo 里藏指令、PR 里挂攻击)
模块十一 Multi-Modal ─→ 图/音/视频里隐藏攻击 payload(2025 新攻击面)

模块十二 Agent Safety = 把以上模块的安全风险统一起来,系统讲攻防与对齐

特别强调:

  • 模块七的 LLD Death Spiral / Reward Hacking 是对齐失败的具体案例
  • 模块八的 UC Berkeley 2026-04 大事件(打破 8 个 benchmark)是 reward hacking 的实战
  • 模块九/十/十一 的 prompt injection 风险 → 本模块系统化处理

五、未来趋势(2026-2028)

5.1 ASL-4 / 高风险模型部署

Anthropic ASL-4 框架(2026 启动)将处理”显著军事/生物/网络威胁等级”模型——部署门槛大幅提高,内部红队成为强制流程。

5.2 Indirect Prompt Injection 系统化

外部内容(网页、邮件、PDF)里藏 prompt 指令,在 Agent 时代是新爆点。所有 multi-modal / web-browsing / file-reading agent 都需要 architecture-level 防御

5.3 监管入场

  • EU AI Act:2026-02 全面生效,High-risk AI 强制 third-party 评估
  • 加州 SB-1047 / B53:已通过,大型前沿模型须有 safety case
  • 中国《生成式 AI 服务管理办法》:2024 起备案制,持续收紧

5.4 Scalable Oversight(可扩展监督)

人类已无法 review 所有 agent 行为 ——用模型监督模型(Debate / RLAIF / Critique models)成主流。Anthropic / OpenAI / DeepMind 都在卷。

5.5 Sleeper Agents 与隐性威胁

Anthropic Sleeper Agents 论文(2024)显示:模型可被植入潜伏后门,Safety training 不能完全消除。如何检测/拒绝这种威胁是开放问题。


六、推荐阅读路径

路径 A — 想 快速建立安全意识(1 周)

  1. 第1章 是什么 → 三层威胁
  2. 第2章 攻防(只读”防御”小节)
  3. 自己跑一次 garak

路径 B — 想 做 ML Safety 研究(2 个月)

  1. 全部 1-5 章
  2. 精读 Constitutional AI、GCG、Sleeper Agents 三篇
  3. 关注 Anthropic Alignment Forum / LessWrong / AI Alignment Forum

路径 C — 想 做生产 Red Team 工程师(4 周)

  1. 1-4 章 + 第5章端到端实战
  2. 用 garak / HarmBench 跑自家 agent
  3. 写一份 internal Red Team report
  4. 部署 Constitutional 防御层

路径 D — 想 做合规/policy(2 周)

  1. 第1章 三层威胁
  2. 第3章 RSP / Preparedness 部分
  3. EU AI Act / SB-1047 / 中国办法的法律阅读

✅ 自我检验清单

  • 能区分 misuse / misalignment / accidents 三层威胁
  • 能解释 Agent 安全 vs LLM 安全的核心差异(影响半径放大)
  • 能背出 GCG / PAIR / TAP / Crescendo 4 类 jailbreak 攻击思路
  • 能解释 Constitutional AI 的 RLAIF 范式
  • 能说出 Anthropic RSP / OpenAI Preparedness 框架的核心机制
  • 能列出至少 3 个开源 red team 工具

📚 参考资料

论文

  • Constitutional AI (arXiv 2212.08073) — Anthropic 对齐基石
  • GCG (arXiv 2307.15043) — 首个 universal jailbreak
  • Sleeper Agents (arXiv 2401.05566)
  • HarmBench (arXiv 2402.04249)
  • Red Team Paper (arXiv 2209.07858) — Anthropic
  • Indirect Prompt Injection (arXiv 2302.12173)

官方文档

法规