第2章 🏢 主流商业 Code Agent 对比

一句话:Cursor 是产品标杆(IDE-first)、Devin 是长程标杆(自主 4h+)、Claude Code 是CLI 标杆(Anthropic 官方,本项目就是它写的 ⭐)、Copilot 是生态标杆(GitHub 集成)——四家定位完全不同,要按使用场景选,不是按”哪家最强”选。

📑 目录

一、商业 Code Agent 全景图
二、Cursor(产品标杆)
三、GitHub Copilot(生态标杆)
四、Devin(长程标杆)
五、Claude Code(CLI 标杆)⭐
六、OpenAI Codex CLI / Background CU
七、JetBrains AI Assistant / Junie
八、其他玩家
九、价格对比
十、SWE-bench 表现对比
十一、选型决策树

一、商业 Code Agent 全景图

                  ┌── IDE-first ──────────────────┐
                  │   Cursor / Windsurf / VSCode    │
                  │   (产品标杆,Composer)         │
                  ├──────────────────────────────────┤
                  │   GitHub Copilot                 │
                  │   (生态标杆,IDE+CLI+Agent)     │
                  ├──────────────────────────────────┤
   定位差异         │   JetBrains AI Assistant/Junie   │
   (8 大商业产品)   │   (JetBrains 系)               │
                  └──────────────────────────────────┘
                  ┌── CLI / Headless ────────────┐
                  │   Claude Code (Anthropic) ⭐    │
                  │   (CLI 标杆,SDK 公开)        │
                  ├──────────────────────────────────┤
                  │   OpenAI Codex CLI / BG CU       │
                  │   (CLI + 桌面控制)             │
                  └──────────────────────────────────┘
                  ┌── Cloud / Long-running ──────┐
                  │   Devin (Cognition)            │
                  │   (长程 4h+,云上跑)          │
                  ├──────────────────────────────────┤
                  │   Cursor Background Agents       │
                  │   (近 Devin 模式)              │
                  └──────────────────────────────────┘
                  ┌── 补全 / 轻量 ───────────────┐
                  │   Tabnine / Codeium / Replit     │
                  │   (Tab 补全为主)              │
                  └──────────────────────────────────┘

二、Cursor(产品标杆)

定位:AI-first IDE,fork 自 VS Code。

核心 UX:

Tab:超快补全(0.3s 级)
Cmd+K:Inline 编辑(选中 → 自然语言改)
Composer(2024-10 GA):多文件 Agent,@-mention 指文件
Background Agents(2025-10):Tab 跑后台任务
BugBot:PR review

模型供应:Claude Sonnet 4.5 / GPT-5 / o3 / Gemini 2.5 Pro 等,内置默认 + 自带 API Key。

优势:

延迟极低:Tab 补全自家路由优化,比直连 OpenAI 快 50%+
UX 打磨:Composer 的 diff 预览、@-mention、Apply 是行业标杆
生态成熟:Cursor Rules(.cursorrules)、MCP、自定义模型

局限:

闭源,不能改内核
大 repo 索引有时不稳定
模型成本由用户承担(自带 key)或 Cursor 订阅

典型工作流:

开发流  Cmd+K 改代码 → Tab 补全 → Composer @ 多文件改一个 feature
长任务  Background Agent 后台跑(类似简化版 Devin)
PR     BugBot 自动 review → 人 merge

价格(2026):

Pro: $20/月(含 500 fast prompt + 无限 slow)
Business: $40/用户/月

三、GitHub Copilot(生态标杆)

定位:GitHub 全家桶里的 AI,深度集成 PR / Issue / Actions。

核心产品线:

Copilot 补全(2021-)— Tab 补全鼻祖
Copilot Chat(2023-)— IDE 对话
Copilot Workspace(2024-08)— 项目级任务(选 issue → 给方案 → 改代码 → 跑测试 → 提 PR)
Copilot Coding Agent(2025-12 GA)⭐ — 直接在 GitHub Issues 里 @ 它,它自动开 PR
Copilot CLI(2025-)— 命令行版

模型供应:GPT-5 / Claude Sonnet 4.5 / o3 / Gemini 2.5,可在 settings 切换。

优势:

生态无敌:GitHub Issues / PR / Actions / Codespaces 全打通
企业级合规:GitHub Enterprise 客户可直接开通
VS Code 默认集成(微软自家 IDE)

局限:

IDE 体验比 Cursor 略弱(Composer-like 功能在追赶)
Coding Agent 的 SWE-bench 数字比 Claude Code/Devin 略低
锁定 GitHub 生态(GitLab / Bitbucket 用户体验差)

典型工作流:

日常  IDE 里 Tab + Chat
项目  Copilot Workspace 给 issue → 自动出方案 → 人审批 → 提 PR
自主  在 GitHub Issue 里 @copilot,它自动开 PR

价格(2026):

Individual: $10/月
Business: $19/用户/月
Enterprise: $39/用户/月

四、Devin(长程标杆)

定位:首个声称”AI software engineer”的产品,2024-03 由 Cognition AI 发布。

核心 UX:

完全 Cloud-based:你不装 IDE,用 web 界面
任务驱动:你给一个任务(如”添加用户登录功能”),Devin 在 cloud VM 里跑 4h+
Slack / GitHub 集成:可以从 Slack 起任务、自动开 PR
Devin Search / Wiki:repo 知识库

模型供应:Anthropic 主、OpenAI 辅(动态选择)。

优势:

真长程:能跑 4-8 小时不挂
企业级:已有 Goldman Sachs / Nubank 等 case study
完整工作流:不只是写代码,会自己装依赖、跑测试、改 CI

局限:

价格贵($500/月 Team plan)
早期争议(2024 ARC-AGI 测试被发现部分 demo 误导)
不开源,完全黑盒

典型工作流:

你           "Devin,修这个 PR build 失败的问题"
Devin       (4 小时后) "搞定了,看 PR #1234"
你           review PR → merge

价格(2026):

Team: $500/月起(含若干 ACU,即 Agent Compute Unit)
Enterprise: 联系销售

五、Claude Code(CLI 标杆)⭐

定位:Anthropic 官方 CLI 版 Code Agent,本项目就是用它写的。

核心 UX:

CLI-first:claude 命令进入交互式 agent
Sandbox 隔离:可指定权限(read-only / read-write)
Subagent:可启动 sub-agent 并行做事(本项目用了大量 subagent)
MCP / Skills 支持:扩展工具
SDK 公开(2026-01):可程序化集成

模型供应:Claude Sonnet 4.5 / Opus 4.5 / Haiku 4.5(2026 主推 Opus 4.7 1M 上下文 ⭐)。

优势:

极高的工程质量:本项目从 prerequisites 到模块十,全靠它写。你正在读的就是它的产物。
SWE-bench Verified ~71% ⭐
CLI 可嵌入任何 IDE(VS Code / JetBrains / Vim 都能挂)
完全程序化:可在 CI/CD、定时任务、scripts 里调用

局限:

完全无 GUI,需熟悉 CLI
仅支持 Anthropic 模型(无 GPT/Gemini 选项)
大上下文成本高(Opus 4.7 1M 输入贵)

典型工作流:

claude              # 起交互
> 修 issue #1234    # 自然语言任务
> /plan             # 让它先 plan
> /test             # 跑测试
> /commit           # 自动 commit

价格(2026):

直走 Anthropic API,按 token 计费
通过 Claude Pro/Max 订阅可有月度配额(Claude Max 5x/ $100/月、Max 20x/$ 200/月)
实验室也可用第三方中转(本项目作者用的就是实验室 API 中转,0.025-3 元/M token)

⭐ 强推:如果你用 Anthropic 模型,直接 Claude Code 是最强 Code Agent 体验,远超 Cursor 内置 Claude(因为 Anthropic 自家最懂自家模型)。

六、OpenAI Codex CLI / Background CU

定位:OpenAI 官方 CLI Code Agent,2025-09 重启(注:与 2021 旧 Codex 不同名同源)。

核心特性:

CLI 工作流:与 Claude Code 类似
Background Computer Use(2026-04)⭐ — 多 session 后台跑,可控制屏幕
Codex SDK 公开(2026-Q1)
macOS-first:GUI 操作主要支持 macOS

模型供应:GPT-5 / o3 / o3-mini。

优势:

GPT-5 推理强(2026 SWE-bench Verified ~73%)
macOS 集成深(可调起浏览器、IDE、终端)
多 session 并发(同时跑多个任务)

局限:

macOS 优先,Linux/Windows 体验弱
Background CU 仍属于 beta
仅支持 OpenAI 模型

七、JetBrains AI Assistant / Junie

定位:JetBrains 系列(IntelliJ / PyCharm / Goland / WebStorm)的 AI。

两条产品线:

AI Assistant(2023-)— Inline + Chat,基础能力
Junie(2025-04)⭐ — 自主 Agent,类似 Cursor Composer + Devin 简化版

模型供应:OpenAI / Anthropic / 自家(JetBrains AI),用户可选。

优势:

JetBrains 生态用户必备:深度集成 IDE 重构、调试、数据库工具
多语言强(Java/Kotlin/Python/Go 全覆盖)

局限:

仅限 JetBrains IDE 用户
Junie 仍在追赶 Cursor / Claude Code 体验

价格(2026):

AI Pro: $10/月(随 IDE 订阅折扣)

八、其他玩家

产品	定位	模型	备注
Windsurf(原 Codeium IDE)	Cursor 竞品,fork VS Code	多模型	2026-04 被 OpenAI 收购,与 Codex 整合
Tabnine	隐私优先,可本地部署	自家 + 多模型	老牌补全(2018-),企业用户多
Codeium(原产品已并入 Windsurf)	免费 Tab 补全	自家 + GPT	免费版用户多
Sourcegraph Cody	企业 repo 搜索 + AI	多模型	Code Search + Agent
Replit Ghostwriter / Agent	Replit 内嵌	多模型	浏览器 IDE 用户
Cline / Roo Code	VS Code 插件(开源)	BYOK	详见第 3 章
Continue.dev	VS Code/JetBrains 插件(开源)	BYOK	详见第 3 章

九、价格对比

(以 2026-Q2 个人套餐为基准)

产品	个人订阅	团队/企业	备注
Cursor	$20/月	$40/月	含 500 fast prompt
GitHub Copilot	$10/月	$19/月	标准
Devin	—	$500/月起	按 ACU 计
Claude Code	API 计费	API 计费	Pro $20 / Max$ 100-200 含配额
OpenAI Codex	API 计费	API 计费	ChatGPT Plus 含部分配额
JetBrains AI	$10/月	随 IDE 订阅	包月
Tabnine	$12/月	$39/月	Pro / Enterprise
Replit	$20/月	—	Replit Core

业内共识:做 PR / 长程任务性价比最好的组合是 Claude Code(无月费,按 token)+ 实验室 API 中转(详见项目 README 链接)。Cursor 个人开发者最划算。

十、SWE-bench 表现对比

(2026-Q2,SWE-bench Verified)

系统	Pass Rate	时间
Devin(自家 scaffolding + Anthropic)	~74%*	2026-Q2
Claude Code(Anthropic)	~71% ⭐	2026-04
OpenAI Codex CLI(GPT-5)	~73%	2026-Q2
Cursor Composer(Claude Sonnet 4.5)	~68%	2026-Q1
GitHub Copilot Coding Agent	~65%	2026-Q1
OpenHands(Claude Sonnet 4.5)	~66%	2026-Q1
Aider(Claude Sonnet 4.5)	~64%	2026-Q1
Junie(JetBrains)	~62%	2026-Q2

*Devin 数字来自 Cognition 自家发布,业界独立测评有差异。

趋势:头部前 3 都在 70%+,模型差异 > scaffolding 差异——同样模型在不同框架表现差距 ~5-10%。

十一、选型决策树

       Q1: 你主要在 IDE 里写代码,还是 CLI/Cloud?
       │
       ├── IDE
       │   │
       │   ├── 你是 VS Code 系
       │   │   ├── 想要顶级 Inline UX → Cursor
       │   │   ├── 已用 GitHub 全家桶 → GitHub Copilot
       │   │   └── 极致开源/可控 → Continue.dev / Cline
       │   │
       │   └── 你是 JetBrains 系
       │       └── JetBrains AI / Junie
       │
       ├── CLI
       │   │
       │   ├── 用 Anthropic → Claude Code ⭐
       │   ├── 用 OpenAI → Codex CLI
       │   └── 用其他模型 → Aider(详见第3章)
       │
       └── Cloud / 长程
           │
           ├── 完全交给 AI 4h+ → Devin
           ├── 在 GitHub 里自动开 PR → GitHub Copilot Coding Agent
           └── 自己跑后台 → Cursor Background Agent

11.1 个人开发者(预算敏感)

最佳组合:Cursor Pro($20/月)+ 一个 BYOK 的 Claude API key。理由:Cursor 的 IDE 体验最好,Claude API 按 token 算成本可控。

11.2 企业团队(中型,10-100 人)

最佳组合:GitHub Copilot Business( $19/人月)+ Cursor Business($ 40/人月)。理由:Copilot 走 GitHub 工作流(PR review、issue),Cursor 是日常 IDE。

11.3 工程效率团队(想要 4h+ 长程)

最佳组合:Devin(企业版)+ Claude Code(脚本化)。理由:Devin 处理标准化任务(依赖升级、bug 批量修),Claude Code 用于自定义工作流。

11.4 开源 / 研究(完全可控)

最佳组合:Aider 或 OpenHands(详见第3章)+ 自己的 Claude/GPT API。理由:开源、可改、可复现。

✅ 自我检验清单

能说出 Cursor / Copilot / Devin / Claude Code 4 家的核心定位差异
能解释为什么 Claude Code 是 CLI 标杆而非 IDE 标杆
能说出 Devin 的核心卖点和最大缺点
能根据”个人 vs 企业”和”IDE vs CLI vs Cloud”两个维度给出推荐
能背出当前 SWE-bench Verified 头部 3 家的数字

📚 参考资料

官方

Cursor — https://cursor.sh/docs
GitHub Copilot — https://docs.github.com/en/copilot
Devin — https://devin.ai
Anthropic Claude Code — https://docs.claude.com/en/docs/claude-code
OpenAI Codex CLI — https://github.com/openai/codex
JetBrains AI — https://www.jetbrains.com/ai/

对比 / 评测

“Cursor vs Copilot vs Cline (2026)” 各社区 review
“Claude Code vs Cursor — A Workflow Comparison”(Anthropic 工程博客)
“We tested Devin for 30 days”(各种独立媒体测评)
swebench.com 排行榜

业界博客

Cognition Labs Blog (Devin 工程故事)
Anthropic Engineering Blog
Cursor Changelog
OpenAI Codex 团队发布日志

下一章:第3章开源 Code Agent 框架 —— OpenHands / Aider / Continue.dev / Cline / Roo Code / SWE-Agent / Plandex 7 大开源选项怎么选。

搜索