跳到主要内容
Code Agents

第2章 主流商业 Code Agent 对比

Cursor/GitHub Copilot/Devin/Claude Code/OpenAI Codex CLI/JetBrains/Tabnine/Replit 8 大商业 Code Agent 产品定位、UX、价格、SWE-bench 表现深度对比与选型决策树

code-agent cursor github-copilot devin claude-code codex jetbrains tabnine replit

第2章 🏢 主流商业 Code Agent 对比

一句话:Cursor 是产品标杆(IDE-first)、Devin 是长程标杆(自主 4h+)、Claude Code 是CLI 标杆(Anthropic 官方,本项目就是它写的 ⭐)、Copilot 是生态标杆(GitHub 集成)——四家定位完全不同,要按使用场景选,不是按”哪家最强”选。

📑 目录


一、商业 Code Agent 全景图

                  ┌── IDE-first ──────────────────┐
                  │   Cursor / Windsurf / VSCode    │
                  │   (产品标杆,Composer)         │
                  ├──────────────────────────────────┤
                  │   GitHub Copilot                 │
                  │   (生态标杆,IDE+CLI+Agent)     │
                  ├──────────────────────────────────┤
   定位差异         │   JetBrains AI Assistant/Junie   │
   (8 大商业产品)   │   (JetBrains 系)               │
                  └──────────────────────────────────┘
                  ┌── CLI / Headless ────────────┐
                  │   Claude Code (Anthropic) ⭐    │
                  │   (CLI 标杆,SDK 公开)        │
                  ├──────────────────────────────────┤
                  │   OpenAI Codex CLI / BG CU       │
                  │   (CLI + 桌面控制)             │
                  └──────────────────────────────────┘
                  ┌── Cloud / Long-running ──────┐
                  │   Devin (Cognition)            │
                  │   (长程 4h+,云上跑)          │
                  ├──────────────────────────────────┤
                  │   Cursor Background Agents       │
                  │   (近 Devin 模式)              │
                  └──────────────────────────────────┘
                  ┌── 补全 / 轻量 ───────────────┐
                  │   Tabnine / Codeium / Replit     │
                  │   (Tab 补全为主)              │
                  └──────────────────────────────────┘

二、Cursor(产品标杆)

定位:AI-first IDE,fork 自 VS Code。

核心 UX:

  1. Tab:超快补全(0.3s 级)
  2. Cmd+K:Inline 编辑(选中 → 自然语言改)
  3. Composer(2024-10 GA):多文件 Agent,@-mention 指文件
  4. Background Agents(2025-10):Tab 跑后台任务
  5. BugBot:PR review

模型供应:Claude Sonnet 4.5 / GPT-5 / o3 / Gemini 2.5 Pro 等,内置默认 + 自带 API Key。

优势:

  • 延迟极低:Tab 补全自家路由优化,比直连 OpenAI 快 50%+
  • UX 打磨:Composer 的 diff 预览、@-mention、Apply 是行业标杆
  • 生态成熟:Cursor Rules(.cursorrules)、MCP、自定义模型

局限:

  • 闭源,不能改内核
  • 大 repo 索引有时不稳定
  • 模型成本由用户承担(自带 key)或 Cursor 订阅

典型工作流:

开发流  Cmd+K 改代码 → Tab 补全 → Composer @ 多文件改一个 feature
长任务  Background Agent 后台跑(类似简化版 Devin)
PR     BugBot 自动 review → 人 merge

价格(2026):

  • Pro: $20/月(含 500 fast prompt + 无限 slow)
  • Business: $40/用户/月

三、GitHub Copilot(生态标杆)

定位:GitHub 全家桶里的 AI,深度集成 PR / Issue / Actions。

核心产品线:

  1. Copilot 补全(2021-)— Tab 补全鼻祖
  2. Copilot Chat(2023-)— IDE 对话
  3. Copilot Workspace(2024-08)— 项目级任务(选 issue → 给方案 → 改代码 → 跑测试 → 提 PR)
  4. Copilot Coding Agent(2025-12 GA)⭐ — 直接在 GitHub Issues 里 @ 它,它自动开 PR
  5. Copilot CLI(2025-)— 命令行版

模型供应:GPT-5 / Claude Sonnet 4.5 / o3 / Gemini 2.5,可在 settings 切换。

优势:

  • 生态无敌:GitHub Issues / PR / Actions / Codespaces 全打通
  • 企业级合规:GitHub Enterprise 客户可直接开通
  • VS Code 默认集成(微软自家 IDE)

局限:

  • IDE 体验比 Cursor 略弱(Composer-like 功能在追赶)
  • Coding Agent 的 SWE-bench 数字比 Claude Code/Devin 略低
  • 锁定 GitHub 生态(GitLab / Bitbucket 用户体验差)

典型工作流:

日常  IDE 里 Tab + Chat
项目  Copilot Workspace 给 issue → 自动出方案 → 人审批 → 提 PR
自主  在 GitHub Issue 里 @copilot,它自动开 PR

价格(2026):

  • Individual: $10/月
  • Business: $19/用户/月
  • Enterprise: $39/用户/月

四、Devin(长程标杆)

定位:首个声称”AI software engineer”的产品,2024-03 由 Cognition AI 发布。

核心 UX:

  • 完全 Cloud-based:你不装 IDE,用 web 界面
  • 任务驱动:你给一个任务(如”添加用户登录功能”),Devin 在 cloud VM 里跑 4h+
  • Slack / GitHub 集成:可以从 Slack 起任务、自动开 PR
  • Devin Search / Wiki:repo 知识库

模型供应:Anthropic 主、OpenAI 辅(动态选择)。

优势:

  • 真长程:能跑 4-8 小时不挂
  • 企业级:已有 Goldman Sachs / Nubank 等 case study
  • 完整工作流:不只是写代码,会自己装依赖、跑测试、改 CI

局限:

  • 价格贵($500/月 Team plan)
  • 早期争议(2024 ARC-AGI 测试被发现部分 demo 误导)
  • 不开源,完全黑盒

典型工作流:

你           "Devin,修这个 PR build 失败的问题"
Devin       (4 小时后) "搞定了,看 PR #1234"
你           review PR → merge

价格(2026):

  • Team: $500/月起(含若干 ACU,即 Agent Compute Unit)
  • Enterprise: 联系销售

五、Claude Code(CLI 标杆)⭐

定位:Anthropic 官方 CLI 版 Code Agent,本项目就是用它写的

核心 UX:

  • CLI-first:claude 命令进入交互式 agent
  • Sandbox 隔离:可指定权限(read-only / read-write)
  • Subagent:可启动 sub-agent 并行做事(本项目用了大量 subagent)
  • MCP / Skills 支持:扩展工具
  • SDK 公开(2026-01):可程序化集成

模型供应:Claude Sonnet 4.5 / Opus 4.5 / Haiku 4.5(2026 主推 Opus 4.7 1M 上下文 ⭐)。

优势:

  • 极高的工程质量:本项目从 prerequisites 到模块十,全靠它写。你正在读的就是它的产物
  • SWE-bench Verified ~71%
  • CLI 可嵌入任何 IDE(VS Code / JetBrains / Vim 都能挂)
  • 完全程序化:可在 CI/CD、定时任务、scripts 里调用

局限:

  • 完全无 GUI,需熟悉 CLI
  • 仅支持 Anthropic 模型(无 GPT/Gemini 选项)
  • 大上下文成本高(Opus 4.7 1M 输入贵)

典型工作流:

claude              # 起交互
> 修 issue #1234    # 自然语言任务
> /plan             # 让它先 plan
> /test             # 跑测试
> /commit           # 自动 commit

价格(2026):

  • 直走 Anthropic API,按 token 计费
  • 通过 Claude Pro/Max 订阅可有月度配额(Claude Max 5x/100/月、Max20x/100/月、Max 20x/200/月)
  • 实验室也可用第三方中转(本项目作者用的就是 实验室 API 中转,0.025-3 元/M token)

强推:如果你用 Anthropic 模型,直接 Claude Code 是最强 Code Agent 体验,远超 Cursor 内置 Claude(因为 Anthropic 自家最懂自家模型)。


六、OpenAI Codex CLI / Background CU

定位:OpenAI 官方 CLI Code Agent,2025-09 重启(注:与 2021 旧 Codex 不同名同源)。

核心特性:

  • CLI 工作流:与 Claude Code 类似
  • Background Computer Use(2026-04)⭐ — 多 session 后台跑,可控制屏幕
  • Codex SDK 公开(2026-Q1)
  • macOS-first:GUI 操作主要支持 macOS

模型供应:GPT-5 / o3 / o3-mini。

优势:

  • GPT-5 推理强(2026 SWE-bench Verified ~73%)
  • macOS 集成深(可调起浏览器、IDE、终端)
  • 多 session 并发(同时跑多个任务)

局限:

  • macOS 优先,Linux/Windows 体验弱
  • Background CU 仍属于 beta
  • 仅支持 OpenAI 模型

七、JetBrains AI Assistant / Junie

定位:JetBrains 系列(IntelliJ / PyCharm / Goland / WebStorm)的 AI。

两条产品线:

  1. AI Assistant(2023-)— Inline + Chat,基础能力
  2. Junie(2025-04)⭐ — 自主 Agent,类似 Cursor Composer + Devin 简化版

模型供应:OpenAI / Anthropic / 自家(JetBrains AI),用户可选。

优势:

  • JetBrains 生态用户必备:深度集成 IDE 重构、调试、数据库工具
  • 多语言强(Java/Kotlin/Python/Go 全覆盖)

局限:

  • 仅限 JetBrains IDE 用户
  • Junie 仍在追赶 Cursor / Claude Code 体验

价格(2026):

  • AI Pro: $10/月(随 IDE 订阅折扣)

八、其他玩家

产品定位模型备注
Windsurf(原 Codeium IDE)Cursor 竞品,fork VS Code多模型2026-04 被 OpenAI 收购,与 Codex 整合
Tabnine隐私优先,可本地部署自家 + 多模型老牌补全(2018-),企业用户多
Codeium(原产品已并入 Windsurf)免费 Tab 补全自家 + GPT免费版用户多
Sourcegraph Cody企业 repo 搜索 + AI多模型Code Search + Agent
Replit Ghostwriter / AgentReplit 内嵌多模型浏览器 IDE 用户
Cline / Roo CodeVS Code 插件(开源)BYOK详见第 3 章
Continue.devVS Code/JetBrains 插件(开源)BYOK详见第 3 章

九、价格对比

(以 2026-Q2 个人套餐为基准)

产品个人订阅团队/企业备注
Cursor$20/月$40/月含 500 fast prompt
GitHub Copilot$10/月$19/月标准
Devin$500/月 起按 ACU 计
Claude CodeAPI 计费API 计费Pro 20/Max20 / Max 100-200 含配额
OpenAI CodexAPI 计费API 计费ChatGPT Plus 含部分配额
JetBrains AI$10/月随 IDE 订阅包月
Tabnine$12/月$39/月Pro / Enterprise
Replit$20/月Replit Core

业内共识:做 PR / 长程任务性价比最好的组合是 Claude Code(无月费,按 token)+ 实验室 API 中转(详见 项目 README 链接)。Cursor 个人开发者最划算。


十、SWE-bench 表现对比

(2026-Q2,SWE-bench Verified)

系统Pass Rate时间
Devin(自家 scaffolding + Anthropic)~74%*2026-Q2
Claude Code(Anthropic)~71%2026-04
OpenAI Codex CLI(GPT-5)~73%2026-Q2
Cursor Composer(Claude Sonnet 4.5)~68%2026-Q1
GitHub Copilot Coding Agent~65%2026-Q1
OpenHands(Claude Sonnet 4.5)~66%2026-Q1
Aider(Claude Sonnet 4.5)~64%2026-Q1
Junie(JetBrains)~62%2026-Q2

*Devin 数字来自 Cognition 自家发布,业界独立测评有差异。

趋势:头部前 3 都在 70%+,模型差异 > scaffolding 差异——同样模型在不同框架表现差距 ~5-10%。


十一、选型决策树

       Q1: 你主要在 IDE 里写代码,还是 CLI/Cloud?

       ├── IDE
       │   │
       │   ├── 你是 VS Code 系
       │   │   ├── 想要顶级 Inline UX → Cursor
       │   │   ├── 已用 GitHub 全家桶 → GitHub Copilot
       │   │   └── 极致开源/可控 → Continue.dev / Cline
       │   │
       │   └── 你是 JetBrains 系
       │       └── JetBrains AI / Junie

       ├── CLI
       │   │
       │   ├── 用 Anthropic → Claude Code ⭐
       │   ├── 用 OpenAI → Codex CLI
       │   └── 用其他模型 → Aider(详见第3章)

       └── Cloud / 长程

           ├── 完全交给 AI 4h+ → Devin
           ├── 在 GitHub 里自动开 PR → GitHub Copilot Coding Agent
           └── 自己跑后台 → Cursor Background Agent

11.1 个人开发者(预算敏感)

最佳组合:Cursor Pro($20/月)+ 一个 BYOK 的 Claude API key。 理由:Cursor 的 IDE 体验最好,Claude API 按 token 算成本可控。

11.2 企业团队(中型,10-100 人)

最佳组合:GitHub Copilot Business(19/人月)+CursorBusiness(19/人月)+ Cursor Business(40/人月)。 理由:Copilot 走 GitHub 工作流(PR review、issue),Cursor 是日常 IDE。

11.3 工程效率团队(想要 4h+ 长程)

最佳组合:Devin(企业版)+ Claude Code(脚本化)。 理由:Devin 处理标准化任务(依赖升级、bug 批量修),Claude Code 用于自定义工作流。

11.4 开源 / 研究(完全可控)

最佳组合:Aider 或 OpenHands(详见第3章)+ 自己的 Claude/GPT API。 理由:开源、可改、可复现。


✅ 自我检验清单

  • 能说出 Cursor / Copilot / Devin / Claude Code 4 家的核心定位差异
  • 能解释为什么 Claude Code 是 CLI 标杆而非 IDE 标杆
  • 能说出 Devin 的核心卖点和最大缺点
  • 能根据”个人 vs 企业”和”IDE vs CLI vs Cloud”两个维度给出推荐
  • 能背出当前 SWE-bench Verified 头部 3 家的数字

📚 参考资料

官方

对比 / 评测

  • “Cursor vs Copilot vs Cline (2026)” 各社区 review
  • “Claude Code vs Cursor — A Workflow Comparison”(Anthropic 工程博客)
  • “We tested Devin for 30 days”(各种独立媒体测评)
  • swebench.com 排行榜

业界博客

  • Cognition Labs Blog (Devin 工程故事)
  • Anthropic Engineering Blog
  • Cursor Changelog
  • OpenAI Codex 团队发布日志

下一章:第3章 开源 Code Agent 框架 —— OpenHands / Aider / Continue.dev / Cline / Roo Code / SWE-Agent / Plandex 7 大开源选项怎么选。