第1章 Code Agent 是什么
从 Copilot 到 Cursor 到 Devin/Claude Code 的范式跃迁、三层栈、核心循环、与 ChatGPT 写代码的本质区别、2025-2026 爆发推手
第1章 💻 Code Agent 是什么
类比:把 LLM 当代码助手,像找熟人口头问路 ——他告诉你”前面右拐”;把 Code Agent 当工程师,像包工头带农民工 ——你说一句”把厨房翻新”,他自己量尺寸、买材料、动手装、做完试给你看。
这一章讲清楚:为什么 2025-2026 突然 Code Agent 满天飞,它和”ChatGPT 写代码”到底差在哪。
📑 目录
- 一、范式跃迁:从 Copilot 到 Devin
- 二、Code Agent 三层栈
- 三、核心循环:read-plan-edit-test-iterate
- 四、与”ChatGPT 写代码”的本质区别
- 五、2025-2026 爆发的三大推手
- 六、应用场景全景
- 七、Code Agent 不是什么
一、范式跃迁:从 Copilot 到 Devin
短短 4 年,代码智能经历了 4 代跃迁:
2021 Codex / Copilot ── 单行/多行补全
↓ "AI 提建议,人在敲"
2023 ChatGPT 写代码 ── 对话生成 + 拷贝粘贴
↓ "人是搬运工"
2024 Cursor Composer / Aider ── 多文件 Inline 编辑
↓ "AI 直接改文件"
2024 Devin / Claude Code ── 自主 Multi-step Agent ⭐
SWE-Agent / OpenHands "AI 自己开 PR、跑测试"
每一代的边界都在向右扩张——AI 接管的工作越来越多,人保留的工作越来越少。
1.1 第一代:Copilot 时代(2021-2022)
核心交互:Tab 补全。
- 你写到一半,AI 在右边浮一段灰色文字
- 按 Tab 接受、按 Esc 拒绝
- 人 100% 主导工作流
局限:
- 只能看到当前文件,看不到整个 repo
- 不会跑代码,不会查文档
- 主要依赖训练数据中的”代码 patterns”
1.2 第二代:ChatGPT 写代码(2022-2023)
核心交互:对话 + 拷贝粘贴。
- 你描述需求,ChatGPT 给一段代码
- 你拷到 IDE,改改 import,跑测试,失败再来问
局限:
- 完全脱离 IDE 上下文
- 没有 repo 感知
- 大量人力做”搬运工”
- 多次往返成本高
1.3 第三代:Inline Code Edit(2023-2024)
代表产品:Cursor(2023-03)、Aider(2024-05)、Continue.dev。
核心交互:在 IDE 里直接选中代码 → AI 改 → diff 预览 → accept/reject。
- AI 能看到 repo 多个文件
- 能跑 grep / find / file system tools
- 还是人在主导每一步
Cursor Composer 的爆点(2024-10):多文件协同编辑——“重构这个 module”成为可能。
1.4 第四代:自主 Code Agent(2024-至今)
代表产品:Devin(2024-03)、Claude Code(2025-02)、OpenAI Codex CLI(2025-09)、OpenHands、SWE-Agent。
核心交互:你说一句”修 issue #1234”,AI 自己:
- 看 issue 描述
- 读相关代码
- 写补丁
- 跑测试
- 失败就调试,直到通过
- 提 PR
关键变化:人退出了循环中部 ——只在起点(下任务)和终点(review PR)介入,中间几小时是 agent 自治。
二、Code Agent 三层栈
按”agent 在工作流中的接管程度”,今天的 Code Agent 产品分 3 层:
┌──────────────────────────────────────────────────────────┐
│ Tier 3 自主 Agent Devin / Claude Code / Codex CLI │
│ (4h+ 长程,自己开 PR,人只 review) │
├──────────────────────────────────────────────────────────┤
│ Tier 2 Inline AI Cursor Composer / Copilot Chat │
│ Aider / Continue (理解多文件,能跑命令) │
├──────────────────────────────────────────────────────────┤
│ Tier 1 Tab 补全 Copilot / Cursor Tab / Codeium │
│ (单点字符级,人 100% 主导) │
└──────────────────────────────────────────────────────────┘
| 层 | 输入 | 输出 | 人介入度 | 时长 | 代表产品 |
|---|---|---|---|---|---|
| Tier 1 | 当前光标位置 | 几行补全 | 100% 主导 | <1 秒 | Copilot Tab |
| Tier 2 | 自然语言指令 + 选中代码 | 多文件 diff | 50%(逐 diff 审) | 1-30 秒 | Cursor Composer |
| Tier 3 | issue / 任务 | PR / 完整 commit | 5%(只 review 终态) | 1-24 小时 | Devin / Claude Code |
2026 趋势:Tier 1/2 已成熟,Tier 3 正在快速演进——能自主跑 4h+、自动开 PR 是当前竞争主战场。
三、核心循环:read-plan-edit-test-iterate
所有 Tier 3 Code Agent 共享一个核心循环:
┌────────────────────────────────────────┐
│ 1. READ 读 issue / 任务描述 │
│ ↓ │
│ 2. EXPLORE grep/find/cat 探索 repo │
│ ↓ │
│ 3. PLAN 列出待改文件 + 步骤 │
│ ↓ │
│ 4. EDIT apply diff / write file │
│ ↓ │
│ 5. TEST 跑 unit test / lint │
│ ↓ │
│ 6. CHECK 测试通过? │
│ ├─ 是 → COMMIT / PR │
│ └─ 否 → 回到 step 2 调试 │
└────────────────────────────────────────┘
每一步都对应具体的 tool call:
| 步骤 | 工具调用 | 实现 |
|---|---|---|
| READ | read_issue(id) / read_file(path) | GitHub API / fs |
| EXPLORE | grep(pattern) / find_files(glob) | ripgrep / fd |
| PLAN | (内部 LLM 推理) | CoT / scratchpad |
| EDIT | str_replace(file, old, new) | LSP-aware diff |
| TEST | bash("pytest test_x.py") | sandboxed shell |
| CHECK | parse(test_output) | 正则/AST |
⭐ 关键洞察:ACI(Agent-Computer Interface,SWE-Agent 论文核心概念)就是把这些工具为 LLM 优化设计 ——它们不是给人用的 bash,而是给 LLM 用的 LM-friendly 接口。详见第 4 章。
四、与”ChatGPT 写代码”的本质区别
很多人会问:“我直接 ChatGPT 写代码不行吗?”——表面上看起来差不多,本质有 6 大不同:
| 维度 | ChatGPT 写代码 | Code Agent |
|---|---|---|
| Repo 感知 | ❌ 仅看到粘贴的文本 | ✅ 索引整个 repo,grep/find 自由 |
| 工具使用 | ❌ 只能输出文本 | ✅ shell / fs / git / test 全套 |
| 自我验证 | ❌ 不跑代码,猜结果 | ✅ 跑 unit test 验证 |
| 长程任务 | ❌ 单次对话上下文 | ✅ 4h+ 多步,有 plan / scratchpad |
| 持续状态 | ❌ 关掉就忘 | ✅ trace / memory / commit |
| 提交方式 | ❌ 只生成文本,人手动 commit | ✅ 直接 git commit / 开 PR |
举个具体例子:修一个 GitHub issue “测试在 macOS 上失败”。
ChatGPT 路径:
- 你拷贝 issue 描述给 ChatGPT
- ChatGPT 问”代码呢?”
- 你拷贝相关文件
- ChatGPT 给一个 diff
- 你拷到 IDE,跑测试
- 失败,你拷错误信息回 ChatGPT
- ChatGPT 改进
- 重复 4-7,直到通过
- 你手动 commit + push
总耗时:1-3 小时,人参与每一步。
Code Agent 路径:
- 你说”修 issue #1234”
- Agent 自己看 issue、grep 代码、改 diff、跑测试、调试、提 PR
- 你 review PR 决定是否 merge
总耗时:5-30 分钟(agent 跑),人只在起终点介入。
五、2025-2026 爆发的三大推手
5.1 推手一:LLM 推理能力突破
| 时间 | 模型 | SWE-bench Verified |
|---|---|---|
| 2024-04 | GPT-4 (raw) | ~2% |
| 2024-08 | Claude 3.5 Sonnet | ~49% |
| 2025-10 | Claude Opus 4 | ~68% |
| 2026-04 | Claude Sonnet 4.5 / GPT-5 | ~71-73% |
两年提升 36 倍 ——长上下文 + 推理 RLHF + 工具调用对齐三件套让 LLM 真能写工程代码了。
5.2 推手二:SWE-bench 黄金标尺(2023-10)
Princeton 在 2023-10 发布 SWE-bench,首次把”agent 能力”量化到一个客观数字。
- 2294 个真实 GitHub issue
- 每个 issue 有真实补丁和真实测试
- pass = 测试通过
⭐ 这就是 Code Agent 时代的 ImageNet——所有头部实验室都在卷它。详见第 5 章。
5.3 推手三:IDE 交互范式革新
- Cursor 2023-03 起 ——证明”AI-first IDE”是可行的产品
- Aider 2024-05 起 ——证明 git-aware repo map 比”全文塞 LLM”好得多
- Claude Code 2025-02 起 ——证明 CLI 也能成为完美 agent 容器(本项目就是它写的 ⭐)
新交互范式 + 新模型能力 + 新评测标尺 = 完美引爆。
六、应用场景全景
Code Agent 在 2026 的真实落地场景:
| 场景 | 难度 | Agent 占比 | 代表产品 |
|---|---|---|---|
| Tab 自动补全 | ★ | 50%+ | Copilot, Cursor Tab |
| 生成 boilerplate | ★ | 90%+ | 任何 LLM |
| Inline 重构 | ★★ | 80% | Cursor Composer, Aider |
| 写 unit test | ★★ | 70% | 任何 IDE Agent |
| 修单文件 bug | ★★★ | 60-70%(SWE-bench Lite) | OpenHands, Claude Code |
| 修多文件复杂 bug | ★★★★ | 30-50%(SWE-bench Verified) | Claude Code, Devin |
| 加新 feature(中) | ★★★★ | 30-40% | Claude Code, Cursor BG Agent |
| 大重构 / 迁移 | ★★★★★ | 10-25% | (人主导,agent 辅助) |
| 架构设计 | ★★★★★ | <10% | (人主导) |
| PR review | ★★★ | 70%+ | CodeRabbit, Greptile |
| 依赖升级 | ★★★ | 80%+ | Renovate + AI |
| 文档生成 | ★★ | 90%+ | 任何 LLM |
| 代码迁移(语言/框架) | ★★★★ | 30-40% | (人主导,agent 翻译) |
现实:Tier 1/2 已是日常工具(80% 工程师每天用),Tier 3 在快速发展(2026 已普及到 SWE-bench Verified 70% 量级,但长程复杂任务仍需人主导)。
七、Code Agent 不是什么
为避免误解,Code Agent 不是:
-
❌ 完全替代人类工程师: 架构设计、跨团队沟通、业务理解、debugger 直觉——AI 还远远做不到。 它替代的是重复性、可验证性高的工作(写 boilerplate、修常规 bug)。
-
❌ 永远不会犯错: 即使 SWE-bench Verified 70% 也意味着 30% 失败率——生产环境必须有 review。
-
❌ “提需求就出代码”的银弹: 你给的描述越清楚,agent 表现越好。“做个用户系统”= agent 跑飞,“修这个 issue 的 NPE”= agent 通常能搞定。
-
❌ 取代 Code Review: 恰恰相反——Code Agent 让人有更多时间做 review。CodeRabbit 这样的 PR Review Agent 是补充,不是替代。
-
❌ 一定要用最大的模型: 小模型(7B-30B 推理模型)在受控场景已够用——见第 7 章训练。
✅ 自我检验清单
- 能说出 Code Agent 的 4 代演进里程碑(Copilot / ChatGPT / Cursor / Devin)
- 能区分 Tier 1/2/3 三层栈,各举一个产品
- 能背出 read-explore-plan-edit-test-iterate 6 步循环
- 能列出 ChatGPT 写代码 vs Code Agent 的 6 个关键区别
- 能说出 2025-2026 爆发的 3 大推手
- 能区分”Code Agent 能做”和”Code Agent 不能做”
📚 参考资料
论文
- SWE-Agent (arXiv 2405.15793, NeurIPS 2024) — Tier 3 奠基
- SWE-bench (arXiv 2310.06770) — 黄金标尺
关键产品
- Cursor — https://cursor.sh
- Anthropic Claude Code — https://docs.claude.com/en/docs/claude-code
- Devin (Cognition AI) — https://devin.ai
- OpenAI Codex CLI — https://github.com/openai/codex
- GitHub Copilot Coding Agent — https://docs.github.com/en/copilot
业界博客
- Cognition Labs Blog(Devin 故事系列)
- Anthropic Engineering Blog(Claude Code 实践)
- Cursor Changelog(Composer / Background Agent 演化)
- Aider 作者 Paul Gauthier 博客(repo map 设计哲学)
下一章:第2章 主流商业 Code Agent 对比——Cursor / Copilot / Devin / Claude Code / Codex / JetBrains / Tabnine / Replit 八家放一起比。