Agent Harness 工程方法论学习路线

这门课的目标读者

正在做 Coding Agent / Research Agent / 业务 Agent 的工程师
习惯把 LLM 当作 API 调用，但想搞清楚为什么 Cursor、Claude Code、Codex 这种 Agent 产品并不只是”prompt + tool 调度”那么简单的人
关心 长上下文、长任务、长链路 时 Agent 不再”按部就班”的根因——以及在不重训模型的前提下怎么把 Agent 调到能用、能稳、能扩
项目里需要在多模型（Claude / GPT / Gemini / 国产开源模型）之间做切换、想要一份能复用的 Harness 设计原则

为什么要专门讲 Harness？

把模型部署成接口、再叠一层”调用编排”，就能跑通一些 demo——但只要任务变长、信号变多、调用链变深，Agent 就开始走神、忘事、偏题、绕圈。这些现象很容易被归咎为”模型不够强”，但更准确的描述是：

模型还是那个模型，但喂给它的上下文已经不再是它能正确处理的形态。

Harness（架子） 就是处在”业务”和”模型平台”中间的那一层：它决定了哪些信息进入上下文、哪些被压缩、哪些被丢弃；它决定 Agent 看到的世界是清爽的还是糊成一团的。它和模型权重、Tokenizer、推理引擎共同决定了一个 Agent 产品的体验上限。

业内最近一段时间反复出现的几个关键词，本质都在 Harness 这一层：上下文工程 (Context Engineering)、信噪比 (Signal-to-Noise Ratio)、结构化记忆、子代理 (Subagent)、Skill / Programming Tool Call——它们不是 prompt 技巧，而是 Harness 工程方法论的不同切片。

这一模块的灵感来自饶燎原 2026-04-30 在《黄大年茶思屋学术热点》上发表的《信噪比、分层与 Harness：一份关于 Agent 上下文工程的思考笔记》。我们用自己的话把核心思路重写、补齐工程分析、对照 Claude Code 与开源 Agent 的真实实现。

三个核心问题

整套 8 章围绕三个问题展开：

为什么 Agent 会走神？ —— 长度不是根因，信噪比才是。一份冗长但信号集中、约束清晰的上下文，比一段”看似精炼实则没说清”的 prompt 更容易让模型聚焦。
怎样把 Harness 拆成可工程化的维度？ —— 我们提出 6 个设计维度：任务约束、工具空间、记忆通道、上下文压缩、子代理隔离、可观测——它们彼此正交、可独立优化、又共同决定一个 Agent 的性格。
怎样让 Harness 跨模型复用？ —— 不绑死某个模型的”小聪明”，靠的是几条与模型无关的设计原则：声明式约束、稳定锚点、显式接口、自包含子任务、显式状态恢复点。

章节安排

章节	主题	内容画像	推荐阅读时长
第 1 章	信噪比与约束力 —— Harness 的第一性原理	长度 ≠ 复杂度；约束力的来源；强约束 vs 弱约束的工程对照；测信噪比的实操方法	30 min
第 2 章	上下文工程的六个维度 —— Harness 设计的模型	任务约束 / 工具空间 / 记忆通道 / 压缩策略 / 子代理隔离 / 可观测——每一维的失败模式与设计选择	60 min
第 3 章	一份”好 Prompt”的解剖 —— 从 system prompt 到 turn-level 状态	系统级 / 任务级 / 调用级三层；锚点与漂移；强约束动词与失败模式；一份模板的逐段拆解	45 min
第 4 章	Claude Code 的真实实现 —— Harness 工程的活样本	CLAUDE.md 重注入 / tool-result 截断与清理 / compaction / subagent / memory tool / 工具调用频次预算——逐一解释为什么这么做	75 min
第 5 章	Harness 的演化谱系 —— 从 ReAct 到 Skill / Programming Tool Call	ReAct → AutoGPT 反思链 → 工具子集化 → Anthropic Skill / MCP → Programming Tool Call / Tool Search Tool 的演化逻辑	60 min
第 6 章	跨模型兼容性的六条设计原则 —— 不被某家模型的”小聪明”绑死	声明式约束、稳定锚点、显式接口、自包含子任务、显式状态恢复、可降级——以及在 Claude / GPT / Gemini / 国产模型上的真实表现差	50 min
第 7 章	三层心智模型 —— 业务 / Harness / 平台	三层各自的不变量；接口契约；何时该改 Harness、何时该回模型层、何时只动业务层；项目中的归责框架	40 min
第 8 章	实战与开放问题 —— Harness 评测、灰度与未来	Harness 评测怎么做（任务通过率 vs Token 成本）；灰度 / AB 框架；记忆系统与 Harness 的边界；Agentic OS 的下一步	60 min

学习路径建议

Coding Agent 工程师：从第 1、2、4 章开始，再回到第 3 章拆 prompt——你会发现 Claude Code 那几个看起来”奇怪”的设计（CLAUDE.md 一直被重注入、tool result 会被清掉、subagent 上下文不共享）背后都有非常具体的工程动机。
业务 Agent 产品经理 / 架构师：先看第 7 章的三层心智模型，再回看第 2、6、8 章。你最关心的两个问题——“出了 bug 改哪一层”、“换模型成本多大”——主要在这三章。
研究读者 / 想发声的研究生：第 5 章给你 Harness 的演化坐标系，第 8 章是开放问题。Harness 是当前 Agentic 系统里少数还有显著工程红利、研究可发声、产业可落地的方向。

配套实战

每章末尾都会附最小可复现脚本或对照实现片段，覆盖：

用 250 行 Python 复现一个”重注入 + 截断 + compaction”的 Harness 内核
一份 6 维度 checklist，可直接挂在 Harness 设计评审上
对照 Claude Code（CLI 版本）的真实行为做”白盒推理”——读它能观察到的事件流，反推它的 Harness 策略

一句话总结

Harness 是 Agent 时代的”操作系统”。模型决定上限，Harness 决定下限和稳定性。

这门课就是教你把 Harness 当作工程方法论来设计、评测、迭代——而不是把它当成一段”魔法 prompt”反复试。