🛡️ Agent Safety 6 篇文章 · 5 个章节

模块十二：Agent Safety / Red Teaming

Agent 时代的安全工程 ——三层威胁模型(misuse/misalignment/accidents)、Jailbreak 攻防(GCG/PAIR/TAP/Crescendo/AutoDAN)、Constitutional AI 与 RLHF/RLAIF 对齐方法、Anthropic RSP 与 OpenAI Preparedness 框架、HarmBench/JailbreakBench/AdvBench 评测、garak 红队工具,以及端到端 red team report + Constitutional 防御层实战。

开始学习

章节目录

Agent Safety / Red Teaming 学习路线

1 第1章 Agent 安全是什么

三层威胁模型(misuse/misalignment/accidents)、Agent 时代特殊攻击面、与传统网络安全 vs LLM 安全的差异、典型事故案例

2 第2章 Jailbreak 与 Prompt Injection 攻防

GCG/PAIR/TAP/Crescendo/AutoDAN 等主流 jailbreak 攻击方法精读、Indirect Prompt Injection、Constitutional AI/Guard model/Adversarial Training 等防御策略

3 第3章 Alignment 方法论

RLHF/RLAIF、Constitutional AI 精读、Debate、Scalable Oversight、Sleeper Agents、Deceptive Alignment、Anthropic RSP 与 OpenAI Preparedness 框架

4 第4章 Red Teaming 实战

HarmBench/JailbreakBench/AdvBench 等主流红队 benchmark、garak/PyRIT 自动化工具、自动化 red team pipeline、合规标准、报告模板

5 第5章端到端实战 — 给 Agent 做 Red Team

完整可跑案例,用 garak + HarmBench + 自定义 attack 给一个真实 Agent(基于 Claude Sonnet 4.5)做完整 red team,加 Constitutional + Guard model 双层防御后重测对比

学习建议

前置要求

Agent Runtime（模块六）+ Agent Eval（模块八)+ 模块十一(多模态注入风险)

Constitutional AI(arXiv 2212.08073)是 Anthropic 的对齐基石,精读必读
GCG(arXiv 2307.15043)是首个 universal jailbreak,理解它就懂攻击底层
Agentic 时代 Prompt Injection 风险放大 10×,生产部署务必加守门员

模块十二：Agent Safety / Red Teaming

章节目录

学习建议

前置要求

搜索