Code Agents 学习路线 🗺️

Code Agent——LLM 历史上第一个正在替代真实工程师工作的方向。Cursor 估值 100 亿+、Devin 估值 40 亿+、Anthropic Claude Code 已成主力产品(本项目就是 Claude Code 写的 ⭐)、SWE-bench Verified 已被 Claude Sonnet 4.5 / GPT-5 推过 70%——2025-2026 是 Code Agent 商业化的引爆点。

📑 目录

一、Code Agent 是什么
二、9 章导览
三、商业产品 vs 开源框架时间线
四、SWE-bench 排行榜速览
五、与前 9 模块的关系
六、未来趋势(2026-2027)
七、推荐阅读路径

一、Code Agent 是什么

Code Agent 不是简单的”代码补全”,而是一个能自主读 repo、写补丁、跑测试、改 bug、提 PR 的 agent。它的能力栈分为 3 层:

┌─────────────────────────────────────────────────────┐
│  Tier 3 自主 Agent  Devin / Claude Code / Codex     │
│              (能 4h+ 长程,自己开 PR)                 │
├─────────────────────────────────────────────────────┤
│  Tier 2 Inline AI   Cursor Composer / Copilot Chat  │
│              (理解多文件,能跑命令)                    │
├─────────────────────────────────────────────────────┤
│  Tier 1 Tab 补全     Copilot / Cursor Tab           │
│              (单点字符级)                             │
└─────────────────────────────────────────────────────┘

与传统 LLM “问答 + 拷贝粘贴”的本质区别:

维度	LLM 直问	Code Agent
Repo 感知	❌ 仅看到当前粘贴文本	✅ 索引整个 repo
工具使用	❌ 只能输出文本	✅ 调 shell/grep/edit/test
自我验证	❌ 不跑测试	✅ 跑 unit test / lint 自查
长程任务	❌ 单次对话	✅ 4h+ 多步任务
持续状态	❌ 无记忆	✅ trace/memory
提交结果	❌ 仅生成文本	✅ 直接提 PR

二、9 章导览

章	主题	核心内容
0	学习路线	本文
1	Code Agent 是什么 💻	范式跃迁、3 层栈、核心循环、爆发推手
2	主流商业产品对比 🏢	Cursor/Copilot/Devin/Claude Code/Codex CLI/JetBrains/Tabnine/Replit
3	开源 Code Agent 框架 🔓	OpenHands/Aider/Continue.dev/Cline/Roo Code/SWE-Agent/Plandex
4	SWE-Agent + ACI 论文精读 📄 ⭐	Princeton NeurIPS 2024、ACI 设计原则、OpenHands 继承
5	SWE-bench 全家桶 📏	bench/Verified/Lite/Multimodal/Live、Multi-SWE-bench、LiveCodeBench
6	IDE 集成与 LSP 🔌	LSP / Tree-sitter / VS Code Extension / Cursor 内核 / Continue 架构
7	Code Agent 训练 SFT/RL 🎓	代码基座(StarCoder/CodeLlama/DeepSeek-Coder/Qwen-Coder)、SWE-RL、SWE-Gym
8	生产部署与安全 🔒	Sandboxing / PR review / 测试发现 / Cost / Failure / Audit / Prompt injection
9	端到端实战 ⭐	OpenHands + Claude Sonnet 4.5 跑 SWE-bench Verified 子集

三、商业产品 vs 开源框架时间线

3.1 商业产品

2021-06  GitHub Copilot 公测(代码补全)
2022-06  Copilot 商业化
2023-03  Cursor 0.x — fork VS Code,加 AI ⭐
2024-03  Cognition 发布 Devin(首个声称"AI software engineer")
2024-08  GitHub Copilot Workspace(项目级)
2024-10  Cursor Composer GA(多文件)
2025-02  Claude Code 公测 ⭐(Anthropic CLI)
2025-09  OpenAI Codex CLI 重启
2025-10  Cursor Background Agents(Tab 跑后台任务)
2025-12  GitHub Copilot Coding Agent GA(自主提 PR)
2026-04  OpenAI Codex Background Computer Use
2026-04  JetBrains Junie GA

3.2 开源框架

2024-03  SWE-Agent(Princeton)论文 + 开源 ⭐
2024-03  OpenDevin(后改名 OpenHands)v0.1
2024-05  Aider 火爆破圈(repo map 设计)
2024-06  Continue.dev 1.0
2024-09  Cline(原 Claude Dev)
2024-12  SWE-Gym 开源(训练用)
2025-01  Roo Code(Cline fork)
2025-02  OpenHands 50K+ stars
2025-04  SWE-RL(Meta)论文发布 ⭐
2025-04  Multi-SWE-bench(ByteDance)
2025-08  Plandex 1.0
2026-01  Anthropic Claude Code SDK 公开
2026-04  OpenHands 1.0 + Cloud

四、SWE-bench 排行榜速览

4.1 SWE-bench Verified(500 个高质量 issue)

模型 / 系统	Pass Rate	时间	框架
Claude Sonnet 4.5	~71%	2026-04	Claude Code
GPT-5	~73%	2026-03	Codex CLI
Claude Opus 4	~68%	2025-10	Anthropic CU
GPT-4o	~50%	2025-01	OpenHands
Claude 3.5 Sonnet (legacy)	~49%	2024-10	OpenHands
GPT-4 + SWE-Agent	~12%	2024-03	SWE-Agent
GPT-4 直接调用	~2%	2024-04	(raw)

核心观察:从 2024-03 的 ~2% 到 2026-04 的 ~73%——两年提升 36 倍,这就是 LLM 真实工程能力的进步曲线。

4.2 SWE-bench Multimodal(517 个含视觉的 issue)

模型	Pass Rate
Claude Sonnet 4.5	~45%
GPT-5	~42%
Claude 3.5 Sonnet	~25%

(注:视觉补丁 + 代码理解的双任务,难度高得多。)

五、与前 9 模块的关系

模块二 CUDA            ─┐
模块三 分布式训练      ─┼─ 训练基础(代码 LLM 训练复用这些)
模块四 推理优化        ─┘

模块五 Agent Memory    ─→ Agent 长期记忆(repo memory、project context)
模块六 Agent Runtime   ─→ Agent 怎么跑(LangGraph、Temporal、ACI 设计)⭐
模块七 Agentic RL      ─→ Code Agent RL 训练(SWE-RL 直接复用其方法论)⭐
模块八 Agent Eval      ─→ SWE-bench/HumanEval/Aider polyglot 都属于代码 eval
模块九 Computer Use    ─→ Codex Background CU 等"Code Agent + GUI"组合

模块十 Code Agents      = 把以上所有元素聚焦到"代码"这一垂直领域

特别强调:

模块六(Runtime)的 ACI 部分 → 直接来自 SWE-Agent 论文,是本模块奠基
模块七(RL)的方法论 → SWE-RL 直接复用 GRPO + rule-based reward
模块八(Eval)的 SWE-bench 章节 → 在本模块第 5 章深入

六、未来趋势(2026-2027)

Agent IDE:Cursor/Windsurf 已开始,VS Code AI Toolkit 正在追赶,JetBrains 跟进。IDE = Agent 的容器。
长程任务:从今天的 4h+ 走向 24h+,Anthropic 已展示 Claude 能 8h 自主写完一个 feature。多 session 并行 + Background mode 是主流。
PR Review 全自动:CodeRabbit / Greptile / Sweep / Cursor BugBot 等 PR review agent 已快速增长,每个 PR 都会被 AI review 是必然。
企业 Code Brain:不只是写代码,还要理解 repo 历史、团队规范、业务逻辑——会出现”企业代码大脑”产品(Sourcegraph 已布局)。
多语言、多 stack 突破:Multi-SWE-bench(Java/Go/Rust/C++)显示——目前 SOTA 仅在 Python repo 强,多语言仍有大空间。
自主代码维护:agent 自动监控 repo,主动开 PR 升级依赖、修 bug、加测试——24/7 软件维护工正在成为现实。