跳到主要内容
🛡️ Agent Safety 6 篇文章 · 5 个章节

模块十二:Agent Safety / Red Teaming

Agent 时代的安全工程 ——三层威胁模型(misuse/misalignment/accidents)、Jailbreak 攻防(GCG/PAIR/TAP/Crescendo/AutoDAN)、Constitutional AI 与 RLHF/RLAIF 对齐方法、Anthropic RSP 与 OpenAI Preparedness 框架、HarmBench/JailbreakBench/AdvBench 评测、garak 红队工具,以及端到端 red team report + Constitutional 防御层实战。

开始学习

章节目录

三层威胁模型(misuse/misalignment/accidents)、Agent 时代特殊攻击面、与传统网络安全 vs LLM 安全的差异、典型事故案例
GCG/PAIR/TAP/Crescendo/AutoDAN 等主流 jailbreak 攻击方法精读、Indirect Prompt Injection、Constitutional AI/Guard model/Adversarial Training 等防御策略
RLHF/RLAIF、Constitutional AI 精读、Debate、Scalable Oversight、Sleeper Agents、Deceptive Alignment、Anthropic RSP 与 OpenAI Preparedness 框架
HarmBench/JailbreakBench/AdvBench 等主流红队 benchmark、garak/PyRIT 自动化工具、自动化 red team pipeline、合规标准、报告模板
完整可跑案例,用 garak + HarmBench + 自定义 attack 给一个真实 Agent(基于 Claude Sonnet 4.5)做完整 red team,加 Constitutional + Guard model 双层防御后重测对比

学习建议

前置要求

Agent Runtime(模块六)+ Agent Eval(模块八)+ 模块十一(多模态注入风险)

  • Constitutional AI(arXiv 2212.08073)是 Anthropic 的对齐基石,精读必读
  • GCG(arXiv 2307.15043)是首个 universal jailbreak,理解它就懂攻击底层
  • Agentic 时代 Prompt Injection 风险放大 10×,生产部署务必加守门员