Codex、Claude Code、Cursor、Copilot、Windsurf、Devin、Antigravity，我到底应该怎么选？

AI 编程工具选择封面

先给结论

这篇文章不做玄学排名，只从实际使用场景出发，把常见 AI 编程工具拆开讲清楚：谁适合当主力，谁适合做辅助，什么时候该上 Agent。

如果你只想要一句话：

想把任务交给 AI 去改仓库、跑命令、出文件：选 Codex
想在终端里让 AI 深度理解代码、做复杂改动：选 Claude Code
想在编辑器里边写边改，体验最顺：选 Cursor
公司已经在 GitHub 里协作，想要权限、PR、Issue、审计都顺：选 GitHub Copilot
想试一个 AI IDE，预算有限，又想用多模型和 Cascade：可以试 Windsurf
想要更“自动员工”式的异步开发：看 Devin
想试 Google 的 agent-first IDE：看 Antigravity
想把想法先变规格，再变代码：看 Kiro

别问“哪个最强”。
更靠谱的问题是：你主要在哪里写代码、要不要改整个项目、能不能接受按量计费、团队需不需要管理权限。

很多人看到这里，可能已经开始一头雾水了：
一会儿 Codex，一会儿 Claude Code，一会儿 Cursor；刚弄明白模型，又冒出来 Agent；刚想买一个工具，又发现里面还能选不同模型。

看到 Agent 和模型名词后的一头雾水状态

没关系，我们先别急着选工具。
先把最基础的关系捋顺，后面就好懂了。

先搞懂：模型、Agent、工具到底是什么关系

很多人选错工具，是因为把“模型”和“Agent”混在一起了。

简单说：

1
2
3

模型 = 大脑
Agent = 会使用工具、能按步骤执行任务的大脑
产品/工具 = 你和 Agent 打交道的工作台

举个例子：

Claude Opus 4.8、GPT-5.5、Gemini 3.5 Flash、Kimi K2.6 是模型。
Claude Code、Codex、Copilot coding agent、Devin、Antigravity agent 是 Agent 或 agentic 工具。
Cursor、Windsurf、Antigravity、Kiro 是带 Agent 能力的开发环境。

一个模型本身只负责“思考和生成”。
一个 Agent 会多做几件事：

读你的代码和上下文
制定计划
调用工具，比如终端、浏览器、编辑器、GitHub、MCP
修改文件
跑测试或命令
根据错误继续修
最后交付 diff、PR、文档或部署结果

所以你真正要选的不是“哪个模型最聪明”，而是：

1	哪个产品 + 哪个 Agent 工作流 + 哪个模型组合，最适合我的任务。

比如同样是 Claude 模型：

放在 Claude 网页里，它更像聊天助手。
放在 Claude Code 里，它能读仓库、跑命令、改文件。
放在 GitHub Copilot 里，它能参与 Issue、PR、代码审查流程。
放在 Cursor/Windsurf 里，它更像编辑器里的结对程序员。

这就是“模型”和“Agent”的区别。

模型、Agent、工具之间的关系

快速选择表

你是谁	更适合先试
刚开始用 AI 编程	Cursor 或 GitHub Copilot
VS Code 重度用户	Cursor / Copilot
喜欢终端工作流	Claude Code / Codex CLI
想把任务丢给 AI 做完	Codex / Claude Code
做复杂重构、跨文件改动	Claude Code / Codex
做团队协作、PR、Issue、权限管理	GitHub Copilot
想要多 Agent 并行和任务管理	Codex / Cursor
想体验 agent-first IDE	Google Antigravity
想要异步派单式开发	Devin / Codex cloud / Copilot coding agent
想先写规格再生成代码	Kiro
预算敏感，想先免费试	Copilot Free / Cursor Free / Windsurf Free / Codex Free 额度
企业安全和审计要求高	GitHub Copilot Business/Enterprise / Codex Enterprise

AI 编程工具选择地图

主流模型怎么理解

下面不是跑分排名，而是普通用户更容易用上的“选模型口径”。模型更新很快，价格、额度和可用入口以官方页面为准。

模型	大致优势	更适合放在哪类任务里
GPT-5.5 / GPT-5.5 Pro	OpenAI 最新主线模型，官方强调更强的编码、计算机使用和长任务能力	Codex、复杂工程任务、多工具工作流、知识工作
GPT-5.4 / GPT-5.3-Codex	兼顾通用推理和 Codex 编程能力，适合工程任务	Codex、Copilot、代码生成、调试、重构
Claude Opus 4.8	Anthropic 最新旗舰，官方强调 coding、agentic tasks、专业知识工作和长任务	Claude Code、复杂仓库理解、长上下文分析、代码审查
Claude Sonnet 4.6 / 4.5	成本和能力更平衡，很多 coding 工具默认爱用 Sonnet	日常编程、重构、文档、IDE 内协作
Gemini 3.5 Flash	Google I/O 2026 发布，官方强调 agentic、coding、多模态和速度/成本	Antigravity、Google AI Studio、Android Studio、搜索/多模态任务
Gemini 3.1 Pro	更偏强推理和复杂任务，Google 生态内常见	Google 工具链、复杂推理、多模态分析
Kimi K2.6	Kimi 官方称其面向 coding、long-horizon execution 和 agent swarm	Kimi Code、低成本/开源路线、长任务实验
Qwen / DeepSeek / GLM 等开源或国产模型	成本、可控性、本地化和中文生态有优势	私有化部署、国内 API、成本敏感场景

怎么选模型更实际：

写复杂功能、重构老项目：优先 GPT-5.5 / Claude Opus 4.8。
日常编码和性价比：优先 Claude Sonnet、GPT mini/中档模型、Gemini Flash。
多模态、浏览器、Google 生态：优先 Gemini。
长文档、长仓库、复杂上下文：优先 Claude Opus / Kimi K2.6 这类长上下文或长任务能力强的模型。
成本敏感、私有化、中文场景：看 Kimi、Qwen、DeepSeek、GLM 等。

模型不是越大越好。
很多时候，好工具 + 中等模型 + 明确任务，比“最贵模型 + 模糊需求”效果更稳定。

1. Codex：更像“可以交办任务的工程助理”

Codex 是 OpenAI 的 coding agent。官方说法是：它可以帮助你写、审、发布代码；也可以跨文件、工具和重复工作流执行任务。OpenAI 2026 年还推出了 Codex app，用来管理多个 coding agents、并行运行长期任务。

适合做什么：

修 bug
改多文件功能
写测试
重构
生成文档、表格、脚本
跑命令、检查输出、继续修
多个任务并行推进

适合谁：

想把完整任务交给 AI 的开发者
经常处理仓库级任务的人
想要“AI 帮我动手做事”，而不是只聊天的人
团队里需要更清楚的权限、日志和审计的人

优点：

不只回答问题，能实际读文件、改文件、运行工具。
有 CLI、IDE、云端、桌面 app 等多种入口。
OpenAI 帮助文档显示，Codex 已纳入 ChatGPT 多种计划，使用限制按计划不同。
OpenAI 官方称，Codex 使用记录可进入 Compliance API，适合有合规需求的团队。

需要注意：

越复杂的任务越需要你写清楚边界。
让它改生产代码前，仍然要看 diff、跑测试。
不同计划的额度、模型、入口会变化，要看官方页面。

一句话建议：
如果你想要的是“把这个任务做完”，而不是“帮我补几行代码”，Codex 很适合。

2. Claude Code：更像“终端里的资深结对程序员”

Claude Code 是 Anthropic 的 agentic coding 工具。官方最佳实践文档说，它可以读文件、运行命令、修改代码，并在你观察、打断或离开时继续处理问题。

适合做什么：

理解大型代码库
复杂 bug 定位
多文件重构
写测试和修测试
终端内持续迭代
让 AI 先读代码再计划

适合谁：

喜欢命令行和本地开发环境的人
后端、基础设施、全栈工程师
经常在陌生代码库里排查问题的人
愿意和 AI 来回协作、逐步收敛方案的人

优点：

终端体验强，适合工程师工作流。
对长上下文、代码理解和复杂修改很友好。
Anthropic 文档明确支持通过 Pro/Max 计划连接 Claude Code，也可以走 API 计费。
Claude API 官方价格透明，按模型输入/输出 token 收费。

需要注意：

Claude Code 很强，但也更需要你会看它在做什么。
API 模式下成本可能上升，尤其是长上下文、工具调用、反复跑命令。
如果系统里同时设置了 API Key 和订阅登录，要注意它实际走哪种计费方式。

一句话建议：
如果你是工程师，喜欢终端，想让 AI 深度参与复杂代码任务，Claude Code 很值得试。

3. Cursor：更像“把 AI 放进编辑器里的开发环境”

Cursor 是 AI code editor，适合那些不想离开编辑器的人。官方文档里，Agent 模式面向复杂功能和重构，可以自主探索、多文件编辑，并调用工具。

适合做什么：

边写代码边问问题
快速改 UI、改组件
让 AI 理解当前文件和项目
多文件编辑
代码补全、重写、解释
在编辑器内快速试错

适合谁：

VS Code 用户
前端、全栈、独立开发者
做产品原型的人
不想在终端和编辑器之间来回切的人

优点：

上手最顺，编辑器体验完整。
适合“我正在写代码，AI 在旁边帮我”的工作流。
Agent、Ask、编辑器上下文结合紧。
官方文档显示 Cursor 支持按模型推理价格消耗 agent usage，团队版有共享用量和管理能力。

需要注意：

大型项目里，AI 改动仍然可能只局部正确。
使用高端模型和长上下文时，成本要关注。
不要把它当成“自动写完整项目还不用检查”的工具。

一句话建议：
如果你每天都在编辑器里写代码，想要最自然的 AI 编程体验，先试 Cursor。

4. GitHub Copilot：更像“和 GitHub 深度绑定的团队型 AI 编程工具”

Copilot 最早以代码补全出名，现在已经扩展到 Chat、Agent mode、Copilot cloud agent、代码审查、CLI、MCP、第三方 agents 等。GitHub 官方文档显示，Copilot Pro、Pro+、Max、Business、Enterprise 都有不同的 AI Credits、模型和管理能力。

适合做什么：

代码补全
IDE 内问答
PR 总结
代码审查
GitHub Issue 到 Agent 任务
团队权限管理
企业策略控制

适合谁：

GitHub 深度用户
已经买了 GitHub Copilot 的团队
需要集中管理权限、策略和审计的公司
想在 GitHub、VS Code、Mobile 之间切换的人

优点：

和 GitHub 工作流结合最深。
对团队管理、组织策略、PR、Issue 体验友好。
GitHub 2026 年 2 月已让 Claude 和 Codex 作为 coding agents 接入 Copilot Pro+ 和 Enterprise 公测。
官方计划页显示，Copilot 支持多个模型，包括 Claude、Gemini、GPT、Codex 系列等。

需要注意：

2026 年 6 月 1 日起，Copilot 进入 GitHub AI Credits 计费口径，重度 Agent 使用要关注成本。
官方文档还提示，部分个人/商业新注册曾临时暂停，实际可购买状态要看 GitHub 页面。
如果你主要想要“独立强 Agent”，Copilot 未必是唯一选择；它更强在 GitHub 生态整合。

一句话建议：
如果你所在团队已经围绕 GitHub 协作，Copilot 是最省组织成本的选择。

5. Windsurf：更像“带 Cascade 的 AI IDE”

Windsurf 的核心是 Cascade。官方文档里，Cascade 有 Code 和 Chat 两种模式：Code 模式可以创建和修改代码，Chat 模式更适合问代码库和编程问题。它也支持模型选择、计划和 Todo List。

适合做什么：

AI IDE 体验
多文件编辑
快速原型开发
使用多模型
预算有限时尝试 AI 编程

适合谁：

想试 Cursor 替代品的人
想要 AI 编辑器，但不想一上来付太多的人
对多模型、Cascade、IDE 工作流感兴趣的开发者

优点：

官方价格页显示有 Free、Pro、Max、Teams、Enterprise 等计划。
Pro 价格为 20 美元/月，包含更多 quota、前沿模型访问、Cascade、Tab、Previews、Deploys 等能力。
Cascade 内置计划和 Todo List，适合稍长一点的任务。

需要注意：

和所有 AI IDE 一样，复杂项目里要看 diff 和测试结果。
额度、模型、价格变动较频繁，购买前要看官方说明。
如果你已经有 Cursor 或 Copilot，不一定需要马上再买 Windsurf。

一句话建议：
如果你想找一个 AI IDE 备选，或者想比较 Cursor 之外的体验，Windsurf 可以试，但不要只因为便宜就盲买。

6. Devin：更像“异步接任务的 AI 工程师”

Devin 是 Cognition 的 autonomous software engineer，更像一个可以接收任务、在云端环境里自己规划、编码、测试、提交结果的 Agent。它和 Cursor、Windsurf 这种“你在编辑器里一起写”的体验不同，更偏“我给你一个任务，你去做，做完回来交付”。

适合做什么：

明确边界的开发任务
修 bug
写测试
做迁移
处理 Issue
异步跑较长任务

适合谁：

创业团队
想把小任务外包给 Agent 的工程团队
有比较清晰任务拆分能力的技术负责人
不想一直盯着编辑器的人

优点：

工作方式更接近“派单”。
适合并行处理一些边界清楚的开发任务。
和 Windsurf/Cognition 生态开始出现更多连接，后续可能更强调云端 Agent 和 IDE 的协同。

需要注意：

Devin 不是魔法员工，任务描述越模糊，结果越不稳定。
复杂业务上下文、隐含规则、历史包袱多的项目，仍然需要人类拆任务和验收。
更适合“能写清楚验收标准”的团队。

一句话建议：
如果你已经能把需求拆成清晰 Issue，Devin 这类异步 Agent 才更容易发挥价值。

7. Google Antigravity：更像“agent-first 的开发平台”

Google Antigravity 是 Google 的 agentic development platform。Google 在 I/O 2026 推出 Antigravity 2.0，强调 desktop app、CLI、SDK、Managed Agents，以及和 Gemini API、AI Studio、Android Studio、Gemini Enterprise 的连接。

适合做什么：

从想法到应用原型
多 Agent 并行探索
需要浏览器、终端、编辑器一起验证的任务
Google / Gemini 生态内开发
Android 或多模态相关开发

适合谁：

想体验 agent-first IDE 的开发者
Google 生态用户
做 Android、Web、AI 应用原型的人
对多 Agent 管理和 SDK 工作流感兴趣的人

优点：

官方定位就是 agent-first，不只是给传统 IDE 加聊天框。
Google 官方称 Antigravity 2.0 连接 Gemini 3.5 Flash、Managed Agents、AI Studio 等开发者能力。
对多模态、浏览器验证、Google 平台集成可能更友好。

需要注意：

新平台变化快，稳定性、生态、插件和团队采用成本还需要观察。
如果你已经深度依赖 VS Code + GitHub + Copilot/Cursor，迁移成本不低。
Agent 权限要谨慎，尤其是能跑终端、改文件、操作浏览器时。

一句话建议：
如果你想看看“下一代 IDE 可能长什么样”，Antigravity 值得试；如果你只想稳稳写日常代码，Cursor/Copilot 可能更省心。

8. Kiro：更像“先写规格，再写代码”的 AI IDE

Kiro 是 AWS 的 agentic coding service。AWS 文档把它描述为：把 prompt 转成 detailed specs，再转成 working code、docs 和 tests。它的关键词不是“随便 vibe 一下”，而是 spec-driven development。

适合做什么：

需求转规格
规格转实现
生成测试和文档
企业内部工具
需要流程和可追踪性的项目

适合谁：

AWS 用户
企业开发团队
产品/研发协作比较重的团队
不喜欢“AI 直接乱写”，希望先有规格的人

优点：

比较强调从需求到规格再到代码，适合减少 AI 编程的随意性。
AWS 文档显示 Kiro 基于 Amazon Bedrock，并支持 agent hooks，即根据事件触发预定义 Agent 动作。
对企业、流程、云服务结合可能更友好。

需要注意：

如果你只是个人写小脚本，Kiro 的规格流程可能显得重。
如果团队没有写需求和验收标准的习惯，spec-driven 的优势发挥不出来。
云环境、权限、成本都要按 AWS 体系理解。

一句话建议：
如果你不是想“马上写代码”，而是想把需求变成靠谱规格再实现，Kiro 很值得关注。

9. Kimi Code / Qwen Code / OpenCode：更像“低成本、多模型、可折腾路线”

除了上面这些商业产品，还有一类更适合折腾型用户：Kimi Code、Qwen Code、OpenCode、各种 Claude Code compatible 工具和模型路由器。

适合做什么：

低成本 AI coding
使用国产或开源模型
多模型对比
私有化/半私有化实验
自己搭 agent 工作流

适合谁：

会配置 API 和命令行的开发者
预算敏感但愿意折腾的人
想用 Kimi、Qwen、DeepSeek、GLM 等模型的人
做内部工具或自建工作流的人

优点：

成本可能更低。
可控性更强。
模型选择更自由。
对中文、国内 API、国产模型生态更友好。

需要注意：

体验通常不如商业 IDE 顺。
需要自己处理 API Key、模型兼容、上下文、工具权限。
很多第三方中转服务存在隐私和稳定性风险，不要上传公司机密。

一句话建议：
如果你是普通用户，先用成熟产品；如果你是开发者且愿意折腾，再研究 Kimi/Qwen/OpenCode 这条路线。

怎么选，最简单

情况 1：我是普通开发者，刚开始用 AI 写代码

先试：

Cursor
GitHub Copilot
Codex

理由：上手快，不需要一开始就理解复杂 agent 工作流。

情况 2：我是工程师，想真正把任务交给 AI

先试：

Codex
Claude Code
Devin
Cursor Agent

理由：这几个更适合跨文件、跑命令、改仓库、做长期任务。

情况 3：我主要写前端、做产品原型

先试：

Cursor
Windsurf
Antigravity
Codex

理由：编辑器里的即时反馈更重要，先把体验跑顺。

情况 4：我想试“下一代 Agent IDE”

先试：

Google Antigravity
Cursor
Windsurf
Kiro

理由：这类工具的重点不只是补全，而是让 Agent 管理计划、文件、终端、浏览器和验证过程。

情况 5：我是团队负责人，要考虑管理和合规

先看：

GitHub Copilot Business/Enterprise
Codex Business/Enterprise
Claude Team/Enterprise + Claude Code
Kiro / AWS 体系

理由：团队不是只比模型能力，还要看权限、审计、数据控制、采购和支持。

情况 6：我预算很有限

先用免费或已有订阅：

Copilot Free
Cursor Free
Windsurf Free
ChatGPT 计划内的 Codex 可用额度
Claude Pro/Max 已含的 Claude Code 用量
Kimi/Qwen/OpenCode 这类低成本路线

理由：先验证自己是否真的会每天用，再付费。

我自己的选择建议

如果只能选一个，我会这样选：

个人写代码：Cursor
复杂工程任务：Codex 或 Claude Code
GitHub 团队协作：Copilot
终端党：Claude Code
想做多任务代理工作流：Codex
想低成本多试一个 AI IDE：Windsurf
想看 agent-first 新形态：Antigravity
想派单给 AI 异步做：Devin
想先规格后代码：Kiro
想省钱又愿意折腾：Kimi/Qwen/OpenCode

更现实的组合是：

Cursor + Codex：一个负责日常编辑器体验，一个负责复杂任务交办。
Claude Code + GitHub Copilot：一个负责深度终端任务，一个负责团队 GitHub 工作流。
Copilot + Codex/Claude agent：适合已经在 GitHub 里工作的团队。
Antigravity + Gemini：适合想体验 Google agent-first 路线的人。
Kiro + AWS：适合企业云和规格驱动开发。
Kimi/Qwen/OpenCode + 商业工具：适合把低成本模型作为补充，而不是唯一主力。

别踩这 5 个坑

不要只看“月费”
现在很多 AI 编程工具都开始按 token、credits、quota、premium request 或 agent session 计费。真正贵的是长任务、高端模型、大上下文和反复试错。
不要让 AI 直接改核心代码还不看 diff
AI 能跑得很快，也能很快把问题扩大。再强的工具也要 review。
不要把公司密钥、客户数据、未公开代码随便丢进去
看清楚数据政策、企业设置、训练开关、日志和权限。
不要迷信“某某模型最强”
同一个工具，在补全、重构、测试、文档、前端、后端上的表现可能完全不同。
不要一口气买太多工具
先连续用 7 天，看它有没有真的进入你的日常工作流。

最后一句

AI 编程工具不是越贵越好，也不是功能越多越好。
最适合你的，是那个能稳定嵌进你每天工作流、让你少切换上下文、少重复劳动、还能让你放心 review 的工具。

如果你还不知道怎么选，就按这个顺序试：

1	Cursor 上手 -> Codex/Claude Code 做复杂任务 -> Copilot 管团队协作 -> Antigravity/Kiro 看新范式

这样最不容易浪费钱。

如果你也在折腾 AI 工具、自动化工作流，或者想看更多类似的实践记录，可以关注我的公众号。

墨鱼札记公众号二维码