跳到主要内容
Code Agents

第1章 Code Agent 是什么

从 Copilot 到 Cursor 到 Devin/Claude Code 的范式跃迁、三层栈、核心循环、与 ChatGPT 写代码的本质区别、2025-2026 爆发推手

code-agent swe-bench cursor devin claude-code copilot paradigm-shift

第1章 💻 Code Agent 是什么

类比:把 LLM 当代码助手,像找熟人口头问路 ——他告诉你”前面右拐”;把 Code Agent 当工程师,像包工头带农民工 ——你说一句”把厨房翻新”,他自己量尺寸、买材料、动手装、做完试给你看

这一章讲清楚:为什么 2025-2026 突然 Code Agent 满天飞,它和”ChatGPT 写代码”到底差在哪。

📑 目录


一、范式跃迁:从 Copilot 到 Devin

短短 4 年,代码智能经历了 4 代跃迁:

2021  Codex / Copilot         ── 单行/多行补全
        ↓ "AI 提建议,人在敲"
2023  ChatGPT 写代码           ── 对话生成 + 拷贝粘贴
        ↓ "人是搬运工"
2024  Cursor Composer / Aider ── 多文件 Inline 编辑
        ↓ "AI 直接改文件"
2024  Devin / Claude Code     ── 自主 Multi-step Agent ⭐
       SWE-Agent / OpenHands     "AI 自己开 PR、跑测试"

每一代的边界都在向扩张——AI 接管的工作越来越多,人保留的工作越来越少。

1.1 第一代:Copilot 时代(2021-2022)

核心交互:Tab 补全。

  • 你写到一半,AI 在右边浮一段灰色文字
  • 按 Tab 接受、按 Esc 拒绝
  • 人 100% 主导工作流

局限:

  • 只能看到当前文件,看不到整个 repo
  • 不会跑代码,不会查文档
  • 主要依赖训练数据中的”代码 patterns”

1.2 第二代:ChatGPT 写代码(2022-2023)

核心交互:对话 + 拷贝粘贴。

  • 你描述需求,ChatGPT 给一段代码
  • 你拷到 IDE,改改 import,跑测试,失败再来问

局限:

  • 完全脱离 IDE 上下文
  • 没有 repo 感知
  • 大量人力做”搬运工”
  • 多次往返成本高

1.3 第三代:Inline Code Edit(2023-2024)

代表产品:Cursor(2023-03)、Aider(2024-05)、Continue.dev

核心交互:在 IDE 里直接选中代码 → AI 改 → diff 预览 → accept/reject。

  • AI 能看到 repo 多个文件
  • 能跑 grep / find / file system tools
  • 还是人在主导每一步

Cursor Composer 的爆点(2024-10):多文件协同编辑——“重构这个 module”成为可能。

1.4 第四代:自主 Code Agent(2024-至今)

代表产品:Devin(2024-03)、Claude Code(2025-02)、OpenAI Codex CLI(2025-09)、OpenHandsSWE-Agent

核心交互:你说一句”修 issue #1234”,AI 自己:

  1. 看 issue 描述
  2. 读相关代码
  3. 写补丁
  4. 跑测试
  5. 失败就调试,直到通过
  6. 提 PR

关键变化:人退出了循环中部 ——只在起点(下任务)和终点(review PR)介入,中间几小时是 agent 自治。


二、Code Agent 三层栈

按”agent 在工作流中的接管程度”,今天的 Code Agent 产品分 3 层:

┌──────────────────────────────────────────────────────────┐
│  Tier 3 自主 Agent      Devin / Claude Code / Codex CLI   │
│         (4h+ 长程,自己开 PR,人只 review)                  │
├──────────────────────────────────────────────────────────┤
│  Tier 2 Inline AI       Cursor Composer / Copilot Chat    │
│         Aider / Continue (理解多文件,能跑命令)             │
├──────────────────────────────────────────────────────────┤
│  Tier 1 Tab 补全         Copilot / Cursor Tab / Codeium    │
│         (单点字符级,人 100% 主导)                          │
└──────────────────────────────────────────────────────────┘
输入输出人介入度时长代表产品
Tier 1当前光标位置几行补全100% 主导<1 秒Copilot Tab
Tier 2自然语言指令 + 选中代码多文件 diff50%(逐 diff 审)1-30 秒Cursor Composer
Tier 3issue / 任务PR / 完整 commit5%(只 review 终态)1-24 小时Devin / Claude Code

2026 趋势:Tier 1/2 已成熟,Tier 3 正在快速演进——能自主跑 4h+、自动开 PR 是当前竞争主战场。


三、核心循环:read-plan-edit-test-iterate

所有 Tier 3 Code Agent 共享一个核心循环:

   ┌────────────────────────────────────────┐
   │   1. READ      读 issue / 任务描述       │
   │      ↓                                 │
   │   2. EXPLORE   grep/find/cat 探索 repo │
   │      ↓                                 │
   │   3. PLAN      列出待改文件 + 步骤       │
   │      ↓                                 │
   │   4. EDIT      apply diff / write file │
   │      ↓                                 │
   │   5. TEST      跑 unit test / lint    │
   │      ↓                                 │
   │   6. CHECK     测试通过?               │
   │      ├─ 是 → COMMIT / PR             │
   │      └─ 否 → 回到 step 2 调试         │
   └────────────────────────────────────────┘

每一步都对应具体的 tool call:

步骤工具调用实现
READread_issue(id) / read_file(path)GitHub API / fs
EXPLOREgrep(pattern) / find_files(glob)ripgrep / fd
PLAN(内部 LLM 推理)CoT / scratchpad
EDITstr_replace(file, old, new)LSP-aware diff
TESTbash("pytest test_x.py")sandboxed shell
CHECKparse(test_output)正则/AST

关键洞察:ACI(Agent-Computer Interface,SWE-Agent 论文核心概念)就是把这些工具为 LLM 优化设计 ——它们不是给人用的 bash,而是给 LLM 用的 LM-friendly 接口。详见第 4 章。


四、与”ChatGPT 写代码”的本质区别

很多人会问:“我直接 ChatGPT 写代码不行吗?”——表面上看起来差不多,本质有 6 大不同:

维度ChatGPT 写代码Code Agent
Repo 感知❌ 仅看到粘贴的文本✅ 索引整个 repo,grep/find 自由
工具使用❌ 只能输出文本✅ shell / fs / git / test 全套
自我验证❌ 不跑代码,猜结果✅ 跑 unit test 验证
长程任务❌ 单次对话上下文✅ 4h+ 多步,有 plan / scratchpad
持续状态❌ 关掉就忘✅ trace / memory / commit
提交方式❌ 只生成文本,人手动 commit✅ 直接 git commit / 开 PR

举个具体例子:修一个 GitHub issue “测试在 macOS 上失败”。

ChatGPT 路径:

  1. 你拷贝 issue 描述给 ChatGPT
  2. ChatGPT 问”代码呢?”
  3. 你拷贝相关文件
  4. ChatGPT 给一个 diff
  5. 你拷到 IDE,跑测试
  6. 失败,你拷错误信息回 ChatGPT
  7. ChatGPT 改进
  8. 重复 4-7,直到通过
  9. 你手动 commit + push

总耗时:1-3 小时,人参与每一步

Code Agent 路径:

  1. 你说”修 issue #1234”
  2. Agent 自己看 issue、grep 代码、改 diff、跑测试、调试、提 PR
  3. 你 review PR 决定是否 merge

总耗时:5-30 分钟(agent 跑),人只在起终点介入


五、2025-2026 爆发的三大推手

5.1 推手一:LLM 推理能力突破

时间模型SWE-bench Verified
2024-04GPT-4 (raw)~2%
2024-08Claude 3.5 Sonnet~49%
2025-10Claude Opus 4~68%
2026-04Claude Sonnet 4.5 / GPT-5~71-73%

两年提升 36 倍 ——长上下文 + 推理 RLHF + 工具调用对齐三件套让 LLM 真能写工程代码了。

5.2 推手二:SWE-bench 黄金标尺(2023-10)

Princeton 在 2023-10 发布 SWE-bench,首次把”agent 能力”量化到一个客观数字。

  • 2294 个真实 GitHub issue
  • 每个 issue 有真实补丁和真实测试
  • pass = 测试通过

这就是 Code Agent 时代的 ImageNet——所有头部实验室都在卷它。详见第 5 章。

5.3 推手三:IDE 交互范式革新

  • Cursor 2023-03 起 ——证明”AI-first IDE”是可行的产品
  • Aider 2024-05 起 ——证明 git-aware repo map 比”全文塞 LLM”好得多
  • Claude Code 2025-02 起 ——证明 CLI 也能成为完美 agent 容器(本项目就是它写的 ⭐)

新交互范式 + 新模型能力 + 新评测标尺 = 完美引爆。


六、应用场景全景

Code Agent 在 2026 的真实落地场景:

场景难度Agent 占比代表产品
Tab 自动补全50%+Copilot, Cursor Tab
生成 boilerplate90%+任何 LLM
Inline 重构★★80%Cursor Composer, Aider
写 unit test★★70%任何 IDE Agent
修单文件 bug★★★60-70%(SWE-bench Lite)OpenHands, Claude Code
修多文件复杂 bug★★★★30-50%(SWE-bench Verified)Claude Code, Devin
加新 feature(中)★★★★30-40%Claude Code, Cursor BG Agent
大重构 / 迁移★★★★★10-25%(人主导,agent 辅助)
架构设计★★★★★<10%(人主导)
PR review★★★70%+CodeRabbit, Greptile
依赖升级★★★80%+Renovate + AI
文档生成★★90%+任何 LLM
代码迁移(语言/框架)★★★★30-40%(人主导,agent 翻译)

现实:Tier 1/2 已是日常工具(80% 工程师每天用),Tier 3 在快速发展(2026 已普及到 SWE-bench Verified 70% 量级,但长程复杂任务仍需人主导)。


七、Code Agent 不是什么

为避免误解,Code Agent 不是:

  1. ❌ 完全替代人类工程师: 架构设计、跨团队沟通、业务理解、debugger 直觉——AI 还远远做不到。 它替代的是重复性、可验证性高的工作(写 boilerplate、修常规 bug)。

  2. ❌ 永远不会犯错: 即使 SWE-bench Verified 70% 也意味着 30% 失败率——生产环境必须有 review。

  3. ❌ “提需求就出代码”的银弹: 你给的描述越清楚,agent 表现越好。“做个用户系统”= agent 跑飞,“修这个 issue 的 NPE”= agent 通常能搞定。

  4. ❌ 取代 Code Review: 恰恰相反——Code Agent 让人有更多时间做 review。CodeRabbit 这样的 PR Review Agent 是补充,不是替代。

  5. ❌ 一定要用最大的模型: 小模型(7B-30B 推理模型)在受控场景已够用——见第 7 章训练。


✅ 自我检验清单

  • 能说出 Code Agent 的 4 代演进里程碑(Copilot / ChatGPT / Cursor / Devin)
  • 能区分 Tier 1/2/3 三层栈,各举一个产品
  • 能背出 read-explore-plan-edit-test-iterate 6 步循环
  • 能列出 ChatGPT 写代码 vs Code Agent 的 6 个关键区别
  • 能说出 2025-2026 爆发的 3 大推手
  • 能区分”Code Agent 能做”和”Code Agent 不能做”

📚 参考资料

论文

  • SWE-Agent (arXiv 2405.15793, NeurIPS 2024) — Tier 3 奠基
  • SWE-bench (arXiv 2310.06770) — 黄金标尺

关键产品

业界博客

  • Cognition Labs Blog(Devin 故事系列)
  • Anthropic Engineering Blog(Claude Code 实践)
  • Cursor Changelog(Composer / Background Agent 演化)
  • Aider 作者 Paul Gauthier 博客(repo map 设计哲学)

下一章:第2章 主流商业 Code Agent 对比——Cursor / Copilot / Devin / Claude Code / Codex / JetBrains / Tabnine / Replit 八家放一起比。