Agent Safety / Red Teaming 学习路线
模块十二 Agent Safety 全景导览 — 5 章导览、Alignment/Jailbreak/Red Teaming 三大子方向时间线、与前 11 模块的关系、未来趋势
Agent Safety / Red Teaming 学习路线 🛡️
Agent Safety 是 LLM 时代特有的工程领域 ——它不是把传统网络安全套用到 LLM,而是要应对 LLM 特有的”自然语言攻击面”:Jailbreak、Prompt Injection、Misalignment、Reward Hacking。当 agent 能自主执行任务,这些风险放大 10× ——一次 prompt 注入可能被 agent 转化成数十次 API 调用、数百次文件读写。这一章带你从威胁建模一路走到生产级红队。
📑 目录
一、Agent Safety 是什么
Agent Safety = 让 LLM Agent 在对的方向上发挥能力,不被滥用、不出意外、不偏离用户意图。
三层威胁模型(Anthropic / DeepMind 共识):
┌─────────────────────────────────────────────────────┐
│ Layer 3 — Misalignment(目标偏离) │
│ 模型有自己的目标,与人类意图错位 │
│ 例:奖励黑客、欺骗对齐、Sleeper Agent │
├─────────────────────────────────────────────────────┤
│ Layer 2 — Misuse(恶意使用) │
│ 攻击者诱导模型做坏事 │
│ 例:Jailbreak、Prompt Injection、生物武器辅助 │
├─────────────────────────────────────────────────────┤
│ Layer 1 — Accidents(意外失败) │
│ 模型在合规情况下也会出错 │
│ 例:Hallucination、Sycophancy、Unsafe code │
└─────────────────────────────────────────────────────┘
Agent 时代的特殊性:
| 维度 | 单纯 LLM | LLM Agent |
|---|---|---|
| 影响半径 | 一次回复 | 一次任务 = N 次 API/file/web 操作 |
| 攻击放大 | 1× | 10×-100× |
| 失败可见性 | 用户立即看到 | 任务跑完才发现 |
| 反应窗口 | 实时 | 延迟分钟到小时 |
结论:Agent 安全 ≠ LLM 安全 ——它是 LLM 安全 + 工作流安全 + 工具安全的复合体。
二、5 章导览
| 章 | 主题 | 核心内容 |
|---|---|---|
| 0 | 学习路线 | 本文 |
| 1 | Agent 安全是什么 🛡️ | 三层威胁、Agent 特殊攻击面、与传统安全/LLM Safety 差异 |
| 2 | Jailbreak 与 Prompt Injection ⚔️ | GCG/PAIR/TAP/Crescendo/AutoDAN 攻击 + Constitutional AI/Guard model 等防御 |
| 3 | Alignment 方法论 🧭 | RLHF/RLAIF、Constitutional AI、Debate、Scalable Oversight、Sleeper Agents、Anthropic RSP/OpenAI Preparedness |
| 4 | Red Teaming 实战 🎯 | HarmBench/JailbreakBench/AdvBench、garak 框架、自动化 red team pipeline、合规标准 |
| 5 | 端到端实战 ⭐ | 用 garak + HarmBench 给一个 Agent 做完整 red team report,加 Constitutional 防御层重测 |
三、三大子方向时间线
3.1 Alignment(对齐研究)
2017 Christiano et al. RLHF 原始论文
2020 Stiennon et al. RLHF for summarization
2022-03 InstructGPT(OpenAI) ── RLHF 工程化
2022-12 Constitutional AI(Anthropic) ⭐ ── RLAIF 范式
2023-05 Anthropic RSP v1.0
2023-12 Sleeper Agents(arXiv 2401.05566)
2024-Q1 OpenAI Superalignment 团队解散 ── 行业地震
2024-08 Anthropic RSP v2.0(ASL-3)
2025-Q3 Anthropic ASL-3 系统部署
2026-Q1 Anthropic ASL-4 框架预览
2026-Q1 EU AI Act 全面生效
3.2 Jailbreak / Prompt Injection
2022-09 Riley Goodside 首次系统记录 prompt injection
2023-07 GCG(arXiv 2307.15043)⭐ ── 自动化 universal jailbreak
2023-10 PAIR(arXiv 2310.08419) ── black-box 攻击
2024-02 TAP(arXiv 2312.02119) ── tree of attacks
2024-04 Crescendo(arXiv 2404.01833) ── 多轮渐进 jailbreak
2024-05 HarmBench(arXiv 2402.04249) ── 标准化评测
2024-06 AutoDAN-2 / 各家针对性攻击
2024-10 PAIR 工业化 — Anthropic 自家用
2025-Q1 Indirect Prompt Injection 大爆发(模块九/十的攻击面)
2025-Q4 Multi-modal Jailbreak(图/音 frame attack)
2026-Q1 Agentic Prompt Injection 系统化研究
3.3 Red Teaming / 评测
2022-09 Anthropic Red Team paper(arXiv 2209.07858)
2023-08 HarmBench
2024-02 JailbreakBench
2024-06 AdvBench / RealToxicityPrompts
2024-09 garak 框架(NVIDIA) ── 开源红队工具
2025-Q1 OpenAI Preparedness Framework ── 系统化评估
2025-Q3 METR / Apollo Research 独立评估
2026-Q1 Anthropic Red Team report 季度公开
四、与前 11 模块的关系
模块七 Agentic RL ─→ Reward Hacking 是 RL 安全核心(本模块第 3 章细讲)
模块八 Agent Eval ─→ HarmBench / JailbreakBench 也是 eval 一部分
模块九 Computer Use ─→ Computer Use 风险(屏幕截图 prompt injection)
模块十 Code Agents ─→ Code Agent 风险(repo 里藏指令、PR 里挂攻击)
模块十一 Multi-Modal ─→ 图/音/视频里隐藏攻击 payload(2025 新攻击面)
模块十二 Agent Safety = 把以上模块的安全风险统一起来,系统讲攻防与对齐
特别强调:
- 模块七的 LLD Death Spiral / Reward Hacking 是对齐失败的具体案例
- 模块八的 UC Berkeley 2026-04 大事件(打破 8 个 benchmark)是 reward hacking 的实战
- 模块九/十/十一 的 prompt injection 风险 → 本模块系统化处理
五、未来趋势(2026-2028)
5.1 ASL-4 / 高风险模型部署
Anthropic ASL-4 框架(2026 启动)将处理”显著军事/生物/网络威胁等级”模型——部署门槛大幅提高,内部红队成为强制流程。
5.2 Indirect Prompt Injection 系统化
外部内容(网页、邮件、PDF)里藏 prompt 指令,在 Agent 时代是新爆点。所有 multi-modal / web-browsing / file-reading agent 都需要 architecture-level 防御。
5.3 监管入场
- EU AI Act:2026-02 全面生效,High-risk AI 强制 third-party 评估
- 加州 SB-1047 / B53:已通过,大型前沿模型须有 safety case
- 中国《生成式 AI 服务管理办法》:2024 起备案制,持续收紧
5.4 Scalable Oversight(可扩展监督)
人类已无法 review 所有 agent 行为 ——用模型监督模型(Debate / RLAIF / Critique models)成主流。Anthropic / OpenAI / DeepMind 都在卷。
5.5 Sleeper Agents 与隐性威胁
Anthropic Sleeper Agents 论文(2024)显示:模型可被植入潜伏后门,Safety training 不能完全消除。如何检测/拒绝这种威胁是开放问题。
六、推荐阅读路径
路径 A — 想 快速建立安全意识(1 周)
- 第1章 是什么 → 三层威胁
- 第2章 攻防(只读”防御”小节)
- 自己跑一次 garak
路径 B — 想 做 ML Safety 研究(2 个月)
- 全部 1-5 章
- 精读 Constitutional AI、GCG、Sleeper Agents 三篇
- 关注 Anthropic Alignment Forum / LessWrong / AI Alignment Forum
路径 C — 想 做生产 Red Team 工程师(4 周)
- 1-4 章 + 第5章端到端实战
- 用 garak / HarmBench 跑自家 agent
- 写一份 internal Red Team report
- 部署 Constitutional 防御层
路径 D — 想 做合规/policy(2 周)
- 第1章 三层威胁
- 第3章 RSP / Preparedness 部分
- EU AI Act / SB-1047 / 中国办法的法律阅读
✅ 自我检验清单
- 能区分 misuse / misalignment / accidents 三层威胁
- 能解释 Agent 安全 vs LLM 安全的核心差异(影响半径放大)
- 能背出 GCG / PAIR / TAP / Crescendo 4 类 jailbreak 攻击思路
- 能解释 Constitutional AI 的 RLAIF 范式
- 能说出 Anthropic RSP / OpenAI Preparedness 框架的核心机制
- 能列出至少 3 个开源 red team 工具
📚 参考资料
论文
- Constitutional AI (arXiv 2212.08073) — Anthropic 对齐基石
- GCG (arXiv 2307.15043) — 首个 universal jailbreak
- Sleeper Agents (arXiv 2401.05566)
- HarmBench (arXiv 2402.04249)
- Red Team Paper (arXiv 2209.07858) — Anthropic
- Indirect Prompt Injection (arXiv 2302.12173)
官方文档
- Anthropic RSP — https://www.anthropic.com/news/anthropics-responsible-scaling-policy
- OpenAI Preparedness — https://openai.com/preparedness
- METR — https://metr.org
- Apollo Research — https://www.apolloresearch.ai
- garak — https://github.com/NVIDIA/garak
法规
- EU AI Act — https://eur-lex.europa.eu/eli/reg/2024/1689/oj
- 加州 SB-1047 / B53
- 中国《生成式 AI 服务管理办法》