第2章 主流商业 Code Agent 对比
Cursor/GitHub Copilot/Devin/Claude Code/OpenAI Codex CLI/JetBrains/Tabnine/Replit 8 大商业 Code Agent 产品定位、UX、价格、SWE-bench 表现深度对比与选型决策树
第2章 🏢 主流商业 Code Agent 对比
一句话:Cursor 是产品标杆(IDE-first)、Devin 是长程标杆(自主 4h+)、Claude Code 是CLI 标杆(Anthropic 官方,本项目就是它写的 ⭐)、Copilot 是生态标杆(GitHub 集成)——四家定位完全不同,要按使用场景选,不是按”哪家最强”选。
📑 目录
- 一、商业 Code Agent 全景图
- 二、Cursor(产品标杆)
- 三、GitHub Copilot(生态标杆)
- 四、Devin(长程标杆)
- 五、Claude Code(CLI 标杆)⭐
- 六、OpenAI Codex CLI / Background CU
- 七、JetBrains AI Assistant / Junie
- 八、其他玩家
- 九、价格对比
- 十、SWE-bench 表现对比
- 十一、选型决策树
一、商业 Code Agent 全景图
┌── IDE-first ──────────────────┐
│ Cursor / Windsurf / VSCode │
│ (产品标杆,Composer) │
├──────────────────────────────────┤
│ GitHub Copilot │
│ (生态标杆,IDE+CLI+Agent) │
├──────────────────────────────────┤
定位差异 │ JetBrains AI Assistant/Junie │
(8 大商业产品) │ (JetBrains 系) │
└──────────────────────────────────┘
┌── CLI / Headless ────────────┐
│ Claude Code (Anthropic) ⭐ │
│ (CLI 标杆,SDK 公开) │
├──────────────────────────────────┤
│ OpenAI Codex CLI / BG CU │
│ (CLI + 桌面控制) │
└──────────────────────────────────┘
┌── Cloud / Long-running ──────┐
│ Devin (Cognition) │
│ (长程 4h+,云上跑) │
├──────────────────────────────────┤
│ Cursor Background Agents │
│ (近 Devin 模式) │
└──────────────────────────────────┘
┌── 补全 / 轻量 ───────────────┐
│ Tabnine / Codeium / Replit │
│ (Tab 补全为主) │
└──────────────────────────────────┘
二、Cursor(产品标杆)
定位:AI-first IDE,fork 自 VS Code。
核心 UX:
- Tab:超快补全(0.3s 级)
- Cmd+K:Inline 编辑(选中 → 自然语言改)
- Composer(2024-10 GA):多文件 Agent,@-mention 指文件
- Background Agents(2025-10):Tab 跑后台任务
- BugBot:PR review
模型供应:Claude Sonnet 4.5 / GPT-5 / o3 / Gemini 2.5 Pro 等,内置默认 + 自带 API Key。
优势:
- 延迟极低:Tab 补全自家路由优化,比直连 OpenAI 快 50%+
- UX 打磨:Composer 的 diff 预览、@-mention、Apply 是行业标杆
- 生态成熟:Cursor Rules(.cursorrules)、MCP、自定义模型
局限:
- 闭源,不能改内核
- 大 repo 索引有时不稳定
- 模型成本由用户承担(自带 key)或 Cursor 订阅
典型工作流:
开发流 Cmd+K 改代码 → Tab 补全 → Composer @ 多文件改一个 feature
长任务 Background Agent 后台跑(类似简化版 Devin)
PR BugBot 自动 review → 人 merge
价格(2026):
- Pro: $20/月(含 500 fast prompt + 无限 slow)
- Business: $40/用户/月
三、GitHub Copilot(生态标杆)
定位:GitHub 全家桶里的 AI,深度集成 PR / Issue / Actions。
核心产品线:
- Copilot 补全(2021-)— Tab 补全鼻祖
- Copilot Chat(2023-)— IDE 对话
- Copilot Workspace(2024-08)— 项目级任务(选 issue → 给方案 → 改代码 → 跑测试 → 提 PR)
- Copilot Coding Agent(2025-12 GA)⭐ — 直接在 GitHub Issues 里 @ 它,它自动开 PR
- Copilot CLI(2025-)— 命令行版
模型供应:GPT-5 / Claude Sonnet 4.5 / o3 / Gemini 2.5,可在 settings 切换。
优势:
- 生态无敌:GitHub Issues / PR / Actions / Codespaces 全打通
- 企业级合规:GitHub Enterprise 客户可直接开通
- VS Code 默认集成(微软自家 IDE)
局限:
- IDE 体验比 Cursor 略弱(Composer-like 功能在追赶)
- Coding Agent 的 SWE-bench 数字比 Claude Code/Devin 略低
- 锁定 GitHub 生态(GitLab / Bitbucket 用户体验差)
典型工作流:
日常 IDE 里 Tab + Chat
项目 Copilot Workspace 给 issue → 自动出方案 → 人审批 → 提 PR
自主 在 GitHub Issue 里 @copilot,它自动开 PR
价格(2026):
- Individual: $10/月
- Business: $19/用户/月
- Enterprise: $39/用户/月
四、Devin(长程标杆)
定位:首个声称”AI software engineer”的产品,2024-03 由 Cognition AI 发布。
核心 UX:
- 完全 Cloud-based:你不装 IDE,用 web 界面
- 任务驱动:你给一个任务(如”添加用户登录功能”),Devin 在 cloud VM 里跑 4h+
- Slack / GitHub 集成:可以从 Slack 起任务、自动开 PR
- Devin Search / Wiki:repo 知识库
模型供应:Anthropic 主、OpenAI 辅(动态选择)。
优势:
- 真长程:能跑 4-8 小时不挂
- 企业级:已有 Goldman Sachs / Nubank 等 case study
- 完整工作流:不只是写代码,会自己装依赖、跑测试、改 CI
局限:
- 价格贵($500/月 Team plan)
- 早期争议(2024 ARC-AGI 测试被发现部分 demo 误导)
- 不开源,完全黑盒
典型工作流:
你 "Devin,修这个 PR build 失败的问题"
Devin (4 小时后) "搞定了,看 PR #1234"
你 review PR → merge
价格(2026):
- Team: $500/月起(含若干 ACU,即 Agent Compute Unit)
- Enterprise: 联系销售
五、Claude Code(CLI 标杆)⭐
定位:Anthropic 官方 CLI 版 Code Agent,本项目就是用它写的。
核心 UX:
- CLI-first:
claude命令进入交互式 agent - Sandbox 隔离:可指定权限(read-only / read-write)
- Subagent:可启动 sub-agent 并行做事(本项目用了大量 subagent)
- MCP / Skills 支持:扩展工具
- SDK 公开(2026-01):可程序化集成
模型供应:Claude Sonnet 4.5 / Opus 4.5 / Haiku 4.5(2026 主推 Opus 4.7 1M 上下文 ⭐)。
优势:
- 极高的工程质量:本项目从 prerequisites 到模块十,全靠它写。你正在读的就是它的产物。
- SWE-bench Verified ~71% ⭐
- CLI 可嵌入任何 IDE(VS Code / JetBrains / Vim 都能挂)
- 完全程序化:可在 CI/CD、定时任务、scripts 里调用
局限:
- 完全无 GUI,需熟悉 CLI
- 仅支持 Anthropic 模型(无 GPT/Gemini 选项)
- 大上下文成本高(Opus 4.7 1M 输入贵)
典型工作流:
claude # 起交互
> 修 issue #1234 # 自然语言任务
> /plan # 让它先 plan
> /test # 跑测试
> /commit # 自动 commit
价格(2026):
- 直走 Anthropic API,按 token 计费
- 通过 Claude Pro/Max 订阅可有月度配额(Claude Max 5x/200/月)
- 实验室也可用第三方中转(本项目作者用的就是 实验室 API 中转,0.025-3 元/M token)
⭐ 强推:如果你用 Anthropic 模型,直接 Claude Code 是最强 Code Agent 体验,远超 Cursor 内置 Claude(因为 Anthropic 自家最懂自家模型)。
六、OpenAI Codex CLI / Background CU
定位:OpenAI 官方 CLI Code Agent,2025-09 重启(注:与 2021 旧 Codex 不同名同源)。
核心特性:
- CLI 工作流:与 Claude Code 类似
- Background Computer Use(2026-04)⭐ — 多 session 后台跑,可控制屏幕
- Codex SDK 公开(2026-Q1)
- macOS-first:GUI 操作主要支持 macOS
模型供应:GPT-5 / o3 / o3-mini。
优势:
- GPT-5 推理强(2026 SWE-bench Verified ~73%)
- macOS 集成深(可调起浏览器、IDE、终端)
- 多 session 并发(同时跑多个任务)
局限:
- macOS 优先,Linux/Windows 体验弱
- Background CU 仍属于 beta
- 仅支持 OpenAI 模型
七、JetBrains AI Assistant / Junie
定位:JetBrains 系列(IntelliJ / PyCharm / Goland / WebStorm)的 AI。
两条产品线:
- AI Assistant(2023-)— Inline + Chat,基础能力
- Junie(2025-04)⭐ — 自主 Agent,类似 Cursor Composer + Devin 简化版
模型供应:OpenAI / Anthropic / 自家(JetBrains AI),用户可选。
优势:
- JetBrains 生态用户必备:深度集成 IDE 重构、调试、数据库工具
- 多语言强(Java/Kotlin/Python/Go 全覆盖)
局限:
- 仅限 JetBrains IDE 用户
- Junie 仍在追赶 Cursor / Claude Code 体验
价格(2026):
- AI Pro: $10/月(随 IDE 订阅折扣)
八、其他玩家
| 产品 | 定位 | 模型 | 备注 |
|---|---|---|---|
| Windsurf(原 Codeium IDE) | Cursor 竞品,fork VS Code | 多模型 | 2026-04 被 OpenAI 收购,与 Codex 整合 |
| Tabnine | 隐私优先,可本地部署 | 自家 + 多模型 | 老牌补全(2018-),企业用户多 |
| Codeium(原产品已并入 Windsurf) | 免费 Tab 补全 | 自家 + GPT | 免费版用户多 |
| Sourcegraph Cody | 企业 repo 搜索 + AI | 多模型 | Code Search + Agent |
| Replit Ghostwriter / Agent | Replit 内嵌 | 多模型 | 浏览器 IDE 用户 |
| Cline / Roo Code | VS Code 插件(开源) | BYOK | 详见第 3 章 |
| Continue.dev | VS Code/JetBrains 插件(开源) | BYOK | 详见第 3 章 |
九、价格对比
(以 2026-Q2 个人套餐为基准)
| 产品 | 个人订阅 | 团队/企业 | 备注 |
|---|---|---|---|
| Cursor | $20/月 | $40/月 | 含 500 fast prompt |
| GitHub Copilot | $10/月 | $19/月 | 标准 |
| Devin | — | $500/月 起 | 按 ACU 计 |
| Claude Code | API 计费 | API 计费 | Pro 100-200 含配额 |
| OpenAI Codex | API 计费 | API 计费 | ChatGPT Plus 含部分配额 |
| JetBrains AI | $10/月 | 随 IDE 订阅 | 包月 |
| Tabnine | $12/月 | $39/月 | Pro / Enterprise |
| Replit | $20/月 | — | Replit Core |
业内共识:做 PR / 长程任务性价比最好的组合是 Claude Code(无月费,按 token)+ 实验室 API 中转(详见 项目 README 链接)。Cursor 个人开发者最划算。
十、SWE-bench 表现对比
(2026-Q2,SWE-bench Verified)
| 系统 | Pass Rate | 时间 |
|---|---|---|
| Devin(自家 scaffolding + Anthropic) | ~74%* | 2026-Q2 |
| Claude Code(Anthropic) | ~71% ⭐ | 2026-04 |
| OpenAI Codex CLI(GPT-5) | ~73% | 2026-Q2 |
| Cursor Composer(Claude Sonnet 4.5) | ~68% | 2026-Q1 |
| GitHub Copilot Coding Agent | ~65% | 2026-Q1 |
| OpenHands(Claude Sonnet 4.5) | ~66% | 2026-Q1 |
| Aider(Claude Sonnet 4.5) | ~64% | 2026-Q1 |
| Junie(JetBrains) | ~62% | 2026-Q2 |
*Devin 数字来自 Cognition 自家发布,业界独立测评有差异。
趋势:头部前 3 都在 70%+,模型差异 > scaffolding 差异——同样模型在不同框架表现差距 ~5-10%。
十一、选型决策树
Q1: 你主要在 IDE 里写代码,还是 CLI/Cloud?
│
├── IDE
│ │
│ ├── 你是 VS Code 系
│ │ ├── 想要顶级 Inline UX → Cursor
│ │ ├── 已用 GitHub 全家桶 → GitHub Copilot
│ │ └── 极致开源/可控 → Continue.dev / Cline
│ │
│ └── 你是 JetBrains 系
│ └── JetBrains AI / Junie
│
├── CLI
│ │
│ ├── 用 Anthropic → Claude Code ⭐
│ ├── 用 OpenAI → Codex CLI
│ └── 用其他模型 → Aider(详见第3章)
│
└── Cloud / 长程
│
├── 完全交给 AI 4h+ → Devin
├── 在 GitHub 里自动开 PR → GitHub Copilot Coding Agent
└── 自己跑后台 → Cursor Background Agent
11.1 个人开发者(预算敏感)
最佳组合:Cursor Pro($20/月)+ 一个 BYOK 的 Claude API key。 理由:Cursor 的 IDE 体验最好,Claude API 按 token 算成本可控。
11.2 企业团队(中型,10-100 人)
最佳组合:GitHub Copilot Business(40/人月)。 理由:Copilot 走 GitHub 工作流(PR review、issue),Cursor 是日常 IDE。
11.3 工程效率团队(想要 4h+ 长程)
最佳组合:Devin(企业版)+ Claude Code(脚本化)。 理由:Devin 处理标准化任务(依赖升级、bug 批量修),Claude Code 用于自定义工作流。
11.4 开源 / 研究(完全可控)
最佳组合:Aider 或 OpenHands(详见第3章)+ 自己的 Claude/GPT API。 理由:开源、可改、可复现。
✅ 自我检验清单
- 能说出 Cursor / Copilot / Devin / Claude Code 4 家的核心定位差异
- 能解释为什么 Claude Code 是 CLI 标杆而非 IDE 标杆
- 能说出 Devin 的核心卖点和最大缺点
- 能根据”个人 vs 企业”和”IDE vs CLI vs Cloud”两个维度给出推荐
- 能背出当前 SWE-bench Verified 头部 3 家的数字
📚 参考资料
官方
- Cursor — https://cursor.sh/docs
- GitHub Copilot — https://docs.github.com/en/copilot
- Devin — https://devin.ai
- Anthropic Claude Code — https://docs.claude.com/en/docs/claude-code
- OpenAI Codex CLI — https://github.com/openai/codex
- JetBrains AI — https://www.jetbrains.com/ai/
对比 / 评测
- “Cursor vs Copilot vs Cline (2026)” 各社区 review
- “Claude Code vs Cursor — A Workflow Comparison”(Anthropic 工程博客)
- “We tested Devin for 30 days”(各种独立媒体测评)
- swebench.com 排行榜
业界博客
- Cognition Labs Blog (Devin 工程故事)
- Anthropic Engineering Blog
- Cursor Changelog
- OpenAI Codex 团队发布日志
下一章:第3章 开源 Code Agent 框架 —— OpenHands / Aider / Continue.dev / Cline / Roo Code / SWE-Agent / Plandex 7 大开源选项怎么选。