💻 Code Agents 10 篇文章 · 9 个章节
模块十:Code Agents
Code Agent 怎么读 repo、写补丁、跑测试、提 PR:从 Cursor/Devin/Claude Code/Codex 商业产品到 OpenHands/Aider/Continue.dev 开源框架,SWE-Agent 与 ACI 论文精读、SWE-bench 全家桶评测、IDE/LSP 集成、SFT+RL 训练栈、生产部署与端到端 OpenHands 跑 SWE-bench Verified 实战。
开始学习章节目录
从 Copilot 到 Cursor 到 Devin/Claude Code 的范式跃迁、三层栈、核心循环、与 ChatGPT 写代码的本质区别、2025-2026 爆发推手
Cursor/GitHub Copilot/Devin/Claude Code/OpenAI Codex CLI/JetBrains/Tabnine/Replit 8 大商业 Code Agent 产品定位、UX、价格、SWE-bench 表现深度对比与选型决策树
OpenHands/Aider/Continue.dev/Cline/Roo Code/SWE-Agent/Plandex/Auto-Code-Rover 8 大开源框架架构、核心能力、选型决策树
深度精读 SWE-Agent (NeurIPS 2024)、OpenHands、CodeR、SWE-Search、MAGIS、Aider repo map 等 Code Agent 奠基论文,理解 ACI(Agent-Computer Interface)设计哲学
SWE-bench/Verified/Lite/Multimodal/Live、Multi-SWE-bench、LiveCodeBench、HumanEval、Aider polyglot 全家桶对比、SOTA 数据、Contamination 防御、自建 benchmark 思路
Language Server Protocol、Tree-sitter、VS Code Extension API、Cursor 内核、Continue.dev/Cline 架构,以及自己写一个 Code Agent IDE 插件的实战指南
代码基座模型时间线(StarCoder/CodeLlama/DeepSeek-Coder/Qwen-Coder)、SWE-RL(Meta)、SWE-Gym(PKU)、Code-R1 等专项工作,以及与模块七 Agentic RL 的衔接
Sandboxing(Docker/Firecracker)、PR review 自动化、测试发现、Cost 控制、Failure 处理、Audit trace、Prompt injection 防御、License 合规、Code 隐私
完整可跑案例,用 OpenHands + Claude Sonnet 4.5 跑 SWE-bench Verified 子集,Tier 1 OpenHands SDK + Tier 2 Aider + Tier 3 Claude Code 三框架对比,失败模式分类、Cost 分析、改进思路
学习建议
前置要求
Agent Runtime(模块六)+ Agent Eval(模块八)+ 熟悉一种编程语言与 Git
- SWE-Agent(arXiv 2405.15793)的 ACI 设计是所有 Code Agent 的奠基论文,必读
- SWE-bench Verified 是 2025-2026 LLM 真实代码能力的黄金标尺,优先关注
- OpenHands 是开源 Code Agent 事实标准(继承 SWE-Agent),Aider 的 repo map 设计极优雅