第1章 💻 Code Agent 是什么

类比:把 LLM 当代码助手,像找熟人口头问路 ——他告诉你”前面右拐”;把 Code Agent 当工程师,像包工头带农民工 ——你说一句”把厨房翻新”,他自己量尺寸、买材料、动手装、做完试给你看。

这一章讲清楚:为什么 2025-2026 突然 Code Agent 满天飞,它和”ChatGPT 写代码”到底差在哪。

📑 目录

一、范式跃迁:从 Copilot 到 Devin
二、Code Agent 三层栈
三、核心循环:read-plan-edit-test-iterate
四、与”ChatGPT 写代码”的本质区别
五、2025-2026 爆发的三大推手
六、应用场景全景
七、Code Agent 不是什么

一、范式跃迁:从 Copilot 到 Devin

短短 4 年,代码智能经历了 4 代跃迁:

2021  Codex / Copilot         ── 单行/多行补全
        ↓ "AI 提建议,人在敲"
2023  ChatGPT 写代码           ── 对话生成 + 拷贝粘贴
        ↓ "人是搬运工"
2024  Cursor Composer / Aider ── 多文件 Inline 编辑
        ↓ "AI 直接改文件"
2024  Devin / Claude Code     ── 自主 Multi-step Agent ⭐
       SWE-Agent / OpenHands     "AI 自己开 PR、跑测试"

每一代的边界都在向右扩张——AI 接管的工作越来越多,人保留的工作越来越少。

1.1 第一代:Copilot 时代(2021-2022)

核心交互:Tab 补全。

你写到一半,AI 在右边浮一段灰色文字
按 Tab 接受、按 Esc 拒绝
人 100% 主导工作流

局限:

只能看到当前文件,看不到整个 repo
不会跑代码,不会查文档
主要依赖训练数据中的”代码 patterns”

1.2 第二代:ChatGPT 写代码(2022-2023)

核心交互:对话 + 拷贝粘贴。

你描述需求,ChatGPT 给一段代码
你拷到 IDE,改改 import,跑测试,失败再来问

局限:

完全脱离 IDE 上下文
没有 repo 感知
大量人力做”搬运工”
多次往返成本高

1.3 第三代:Inline Code Edit(2023-2024)

代表产品:Cursor(2023-03)、Aider(2024-05)、Continue.dev。

核心交互:在 IDE 里直接选中代码 → AI 改 → diff 预览 → accept/reject。

AI 能看到 repo 多个文件
能跑 grep / find / file system tools
还是人在主导每一步

Cursor Composer 的爆点(2024-10):多文件协同编辑——“重构这个 module”成为可能。

1.4 第四代:自主 Code Agent(2024-至今)

代表产品:Devin(2024-03)、Claude Code(2025-02)、OpenAI Codex CLI(2025-09)、OpenHands、SWE-Agent。

核心交互:你说一句”修 issue #1234”,AI 自己:

看 issue 描述
读相关代码
写补丁
跑测试
失败就调试,直到通过
提 PR

关键变化:人退出了循环中部 ——只在起点(下任务)和终点(review PR)介入,中间几小时是 agent 自治。

二、Code Agent 三层栈

按”agent 在工作流中的接管程度”,今天的 Code Agent 产品分 3 层:

┌──────────────────────────────────────────────────────────┐
│  Tier 3 自主 Agent      Devin / Claude Code / Codex CLI   │
│         (4h+ 长程,自己开 PR,人只 review)                  │
├──────────────────────────────────────────────────────────┤
│  Tier 2 Inline AI       Cursor Composer / Copilot Chat    │
│         Aider / Continue (理解多文件,能跑命令)             │
├──────────────────────────────────────────────────────────┤
│  Tier 1 Tab 补全         Copilot / Cursor Tab / Codeium    │
│         (单点字符级,人 100% 主导)                          │
└──────────────────────────────────────────────────────────┘

层	输入	输出	人介入度	时长	代表产品
Tier 1	当前光标位置	几行补全	100% 主导	<1 秒	Copilot Tab
Tier 2	自然语言指令 + 选中代码	多文件 diff	50%(逐 diff 审)	1-30 秒	Cursor Composer
Tier 3	issue / 任务	PR / 完整 commit	5%(只 review 终态)	1-24 小时	Devin / Claude Code

2026 趋势:Tier 1/2 已成熟,Tier 3 正在快速演进——能自主跑 4h+、自动开 PR 是当前竞争主战场。

三、核心循环:read-plan-edit-test-iterate

所有 Tier 3 Code Agent 共享一个核心循环:

   ┌────────────────────────────────────────┐
   │   1. READ      读 issue / 任务描述       │
   │      ↓                                 │
   │   2. EXPLORE   grep/find/cat 探索 repo │
   │      ↓                                 │
   │   3. PLAN      列出待改文件 + 步骤       │
   │      ↓                                 │
   │   4. EDIT      apply diff / write file │
   │      ↓                                 │
   │   5. TEST      跑 unit test / lint    │
   │      ↓                                 │
   │   6. CHECK     测试通过?               │
   │      ├─ 是 → COMMIT / PR             │
   │      └─ 否 → 回到 step 2 调试         │
   └────────────────────────────────────────┘

每一步都对应具体的 tool call:

步骤	工具调用	实现
READ	`read_issue(id)` / `read_file(path)`	GitHub API / fs
EXPLORE	`grep(pattern)` / `find_files(glob)`	ripgrep / fd
PLAN	(内部 LLM 推理)	CoT / scratchpad
EDIT	`str_replace(file, old, new)`	LSP-aware diff
TEST	`bash("pytest test_x.py")`	sandboxed shell
CHECK	parse(test_output)	正则/AST

⭐ 关键洞察:ACI(Agent-Computer Interface,SWE-Agent 论文核心概念)就是把这些工具为 LLM 优化设计 ——它们不是给人用的 bash,而是给 LLM 用的 LM-friendly 接口。详见第 4 章。

四、与”ChatGPT 写代码”的本质区别

很多人会问:“我直接 ChatGPT 写代码不行吗?”——表面上看起来差不多,本质有 6 大不同:

维度	ChatGPT 写代码	Code Agent
Repo 感知	❌ 仅看到粘贴的文本	✅ 索引整个 repo,grep/find 自由
工具使用	❌ 只能输出文本	✅ shell / fs / git / test 全套
自我验证	❌ 不跑代码,猜结果	✅ 跑 unit test 验证
长程任务	❌ 单次对话上下文	✅ 4h+ 多步,有 plan / scratchpad
持续状态	❌ 关掉就忘	✅ trace / memory / commit
提交方式	❌ 只生成文本,人手动 commit	✅ 直接 git commit / 开 PR

举个具体例子:修一个 GitHub issue “测试在 macOS 上失败”。

ChatGPT 路径:

你拷贝 issue 描述给 ChatGPT
ChatGPT 问”代码呢?”
你拷贝相关文件
ChatGPT 给一个 diff
你拷到 IDE,跑测试
失败,你拷错误信息回 ChatGPT
ChatGPT 改进
重复 4-7,直到通过
你手动 commit + push

总耗时:1-3 小时,人参与每一步。

Code Agent 路径:

你说”修 issue #1234”
Agent 自己看 issue、grep 代码、改 diff、跑测试、调试、提 PR
你 review PR 决定是否 merge

总耗时:5-30 分钟(agent 跑),人只在起终点介入。

五、2025-2026 爆发的三大推手

5.1 推手一:LLM 推理能力突破

时间	模型	SWE-bench Verified
2024-04	GPT-4 (raw)	~2%
2024-08	Claude 3.5 Sonnet	~49%
2025-10	Claude Opus 4	~68%
2026-04	Claude Sonnet 4.5 / GPT-5	~71-73%

两年提升 36 倍 ——长上下文 + 推理 RLHF + 工具调用对齐三件套让 LLM 真能写工程代码了。

5.2 推手二:SWE-bench 黄金标尺(2023-10)

Princeton 在 2023-10 发布 SWE-bench,首次把”agent 能力”量化到一个客观数字。

2294 个真实 GitHub issue
每个 issue 有真实补丁和真实测试
pass = 测试通过

⭐ 这就是 Code Agent 时代的 ImageNet——所有头部实验室都在卷它。详见第 5 章。

5.3 推手三:IDE 交互范式革新

Cursor 2023-03 起 ——证明”AI-first IDE”是可行的产品
Aider 2024-05 起 ——证明 git-aware repo map 比”全文塞 LLM”好得多
Claude Code 2025-02 起 ——证明 CLI 也能成为完美 agent 容器(本项目就是它写的 ⭐)

新交互范式 + 新模型能力 + 新评测标尺 = 完美引爆。

六、应用场景全景

Code Agent 在 2026 的真实落地场景:

场景	难度	Agent 占比	代表产品
Tab 自动补全	★	50%+	Copilot, Cursor Tab
生成 boilerplate	★	90%+	任何 LLM
Inline 重构	★★	80%	Cursor Composer, Aider
写 unit test	★★	70%	任何 IDE Agent
修单文件 bug	★★★	60-70%(SWE-bench Lite)	OpenHands, Claude Code
修多文件复杂 bug	★★★★	30-50%(SWE-bench Verified)	Claude Code, Devin
加新 feature(中)	★★★★	30-40%	Claude Code, Cursor BG Agent
大重构 / 迁移	★★★★★	10-25%	(人主导,agent 辅助)
架构设计	★★★★★	<10%	(人主导)
PR review	★★★	70%+	CodeRabbit, Greptile
依赖升级	★★★	80%+	Renovate + AI
文档生成	★★	90%+	任何 LLM
代码迁移(语言/框架)	★★★★	30-40%	(人主导,agent 翻译)

现实:Tier 1/2 已是日常工具(80% 工程师每天用),Tier 3 在快速发展(2026 已普及到 SWE-bench Verified 70% 量级,但长程复杂任务仍需人主导)。

七、Code Agent 不是什么

为避免误解,Code Agent 不是:

❌ 完全替代人类工程师: 架构设计、跨团队沟通、业务理解、debugger 直觉——AI 还远远做不到。它替代的是重复性、可验证性高的工作(写 boilerplate、修常规 bug)。
❌ 永远不会犯错: 即使 SWE-bench Verified 70% 也意味着 30% 失败率——生产环境必须有 review。
❌ “提需求就出代码”的银弹: 你给的描述越清楚,agent 表现越好。“做个用户系统”= agent 跑飞,“修这个 issue 的 NPE”= agent 通常能搞定。
❌ 取代 Code Review: 恰恰相反——Code Agent 让人有更多时间做 review。CodeRabbit 这样的 PR Review Agent 是补充,不是替代。
❌ 一定要用最大的模型: 小模型(7B-30B 推理模型)在受控场景已够用——见第 7 章训练。

✅ 自我检验清单

能说出 Code Agent 的 4 代演进里程碑(Copilot / ChatGPT / Cursor / Devin)
能区分 Tier 1/2/3 三层栈,各举一个产品
能背出 read-explore-plan-edit-test-iterate 6 步循环
能列出 ChatGPT 写代码 vs Code Agent 的 6 个关键区别
能说出 2025-2026 爆发的 3 大推手
能区分”Code Agent 能做”和”Code Agent 不能做”

📚 参考资料

论文

SWE-Agent (arXiv 2405.15793, NeurIPS 2024) — Tier 3 奠基
SWE-bench (arXiv 2310.06770) — 黄金标尺

关键产品

Cursor — https://cursor.sh
Anthropic Claude Code — https://docs.claude.com/en/docs/claude-code
Devin (Cognition AI) — https://devin.ai
OpenAI Codex CLI — https://github.com/openai/codex
GitHub Copilot Coding Agent — https://docs.github.com/en/copilot

业界博客

Cognition Labs Blog(Devin 故事系列)
Anthropic Engineering Blog(Claude Code 实践)
Cursor Changelog(Composer / Background Agent 演化)
Aider 作者 Paul Gauthier 博客(repo map 设计哲学)

下一章:第2章主流商业 Code Agent 对比——Cursor / Copilot / Devin / Claude Code / Codex / JetBrains / Tabnine / Replit 八家放一起比。

搜索