ChatGPT —— OpenAI 旗舰 AI 助手

由 OpenAI 打造，专注通用人工智能与多模态能力。从高效对话到复杂推理，ChatGPT 覆盖写作、编程、数据分析与智能助手等全场景应用。

2026 年 2 月，AI 编程模型市场迎来了一次密集的正面对决。OpenAI 在 2 月 5 日发布 GPT-5.3-Codex，Anthropic 在 2 月 17 日发布 Claude Sonnet 4.6。两款模型都声称在编程能力上达到了新高度——但数字摆出来，答案并不简单。

这场对比的核心矛盾在于：两款模型在不同的编程基准上各自领先。Claude Sonnet 4.6 在 SWE-bench Verified（Python 工程编码）上得分更高，GPT-5.3-Codex 在 SWE-bench Pro（多语言真实工程）和 Terminal-Bench 2.0（终端工作流）上占优。回答”谁是最强编程模型”，取决于你在问哪种类型的编程。

本文由 Claude Ai中文官网 整理，把所有主要基准的最新数据列清楚，并从场景角度帮你判断哪款模型更适合你的实际工作。

本文数据来自 OpenAI 官方发布公告、Anthropic 官方文档，以及 marc0.dev、morphllm.com、nxcode.io 等独立评测平台，截至 2026 年 3 月。基准测试数字受测试方法和脚手架影响，以各来源标注的原始数据为准。

一、先说清楚：这是一场不对等的对比

在列数据之前，有一个重要的定位差异需要说清楚。

GPT-5.3-Codex 是 OpenAI 专为 Agent 编程场景打造的专项模型——它不是 GPT-5.3 系列的通用版本，而是在 GPT-5.2 基础上专门针对长时间工程任务、终端操作和多文件协调做了强化的特化版。GPT-5.3-Codex 是 OpenAI 最先进的 Agent 编程模型，结合了 GPT-5.2-Codex 的前沿软件工程性能和 GPT-5.2 更广泛的推理和专业知识能力，在长时间工具使用工作流上进行了优化。

Claude Sonnet 4.6 是 Anthropic 的均衡中间层模型——不是专项编程版本，而是覆盖写作、分析、编码、Agent 任务的全能型日常模型。Anthropic 在 2026 年 2 月 17 日发布 Claude Sonnet 4.6，这款模型以接近 Opus 的性能、更低的成本，成为 Claude Code Free 和 Pro 用户的默认模型。

所以这场对比的本质是：一款编程专项模型 vs 一款均衡全能模型。Sonnet 4.6 在编程上能对抗专项模型，本身就是一件值得关注的事。

二、核心数据：四个维度的最新得分

基准测试	Claude Sonnet 4.6	GPT-5.3-Codex	领先方	差距
SWE-bench Verified（Python 工程编码）	79.6%	78.0%	Sonnet 4.6	+1.6%
SWE-bench Pro（多语言真实工程）	未公布独立得分	56.8%（全榜第一）	GPT-5.3-Codex	领先明显
Terminal-Bench 2.0（终端工作流）	约 58%（Claude Code 框架）	77.3%	GPT-5.3-Codex	+19% 以上
LiveCodeBench Pro（竞赛算法）	未公布独立 Elo	较强	GPT-5.3-Codex 有优势	—
MRCR v2（1M Token 长上下文召回）	68.4%（Sonnet 4.6）	未公布	Sonnet 4.6 有记录	—
OSWorld-Verified（计算机使用）	72.5%	64.7%	Sonnet 4.6	+7.8%

表格揭示的核心结论：两款模型各有明确领先的维度，没有一个在所有场景下都更强。 这不是模糊的”各有特点”，而是可以量化的、有方向性的差距。

三、SWE-bench Verified：Sonnet 4.6 领先，但差距微小

SWE-bench Verified 是最广为引用的编程基准，测试模型在 500 个真实 Python 开源项目 GitHub Issue 上的修复能力。

2026 年 3 月最新榜单：Claude Opus 4.5 以 80.9% 居首，Claude Opus 4.6（80.8%）、Gemini 3.1 Pro（80.6%）、MiniMax M2.5（80.2%）、GPT-5.2（80.0%）依次排列，Claude Sonnet 4.6 以 79.6% 排名第六——一款中间层模型几乎追平了所有旗舰模型。

GPT-5.3-Codex 在此榜单上的得分约 78.0%，低于 Sonnet 4.6 的 79.6%。

但这里有一个重要的背景信息：OpenAI 确认每个前沿模型在 SWE-bench Verified 上都存在训练数据泄漏问题，59.4% 最难的未解决任务存在有缺陷的测试。OpenAI 已停止上报 Verified 分数。这些分数仍然在方向上有参考价值，但不应作为模型选型的唯一依据。

简单说：Sonnet 4.6 在这个基准上领先 GPT-5.3-Codex，但这个基准本身的可信度正在受到质疑，应该作为参考而非定论。

四、SWE-bench Pro：GPT-5.3-Codex 的真正主场

SWE-bench Pro 是 Scale AI 开发的更难版本，专门解决 SWE-bench Verified 的几个问题：

测试范围扩展到 Python 以外的多种编程语言
包含更多私有代码库风格的题目，降低训练集记忆的影响
任务难度更高，更接近真实企业工程环境

GPT-5.3-Codex 在 SWE-bench Pro 公开集上得分 56.8%，超过 GPT-5.2-Codex 的 56.4%，保持全榜第一。Claude Sonnet 4.6 没有公布此基准的独立得分。

在 Scale AI 的 SEAL 标准化脚手架测试中，同一批模型的得分普遍下降——Claude Opus 4.5 在 SEAL 标准化条件下领先，得分 45.9%。这说明模型在 SWE-bench Pro 上的绝对分数受脚手架影响很大，但 GPT-5.3-Codex 在公开集上的领先是有数据支撑的。

对于使用多语言栈、或者处理大型私有代码库的开发者，SWE-bench Pro 的数字比 SWE-bench Verified 更有参考意义——而在这个维度上，GPT-5.3-Codex 是当前的明确领跑者。

五、Terminal-Bench 2.0：差距最大的维度

Terminal-Bench 2.0 测试的是模型通过终端命令完成真实工程任务的能力：文件操作、git 操作、构建系统管理、测试运行和修复。这是最接近”DevOps 工程师实际工作内容”的编程基准。

在这个维度，GPT-5.3-Codex 的表现是两款模型之间差距最大的地方：

Gemini 3.1 Pro：78.4%（当前第一）
GPT-5.3-Codex：77.3%
Claude Opus 4.6：74.7%
Claude Code（独立框架）：58.0%

Claude Sonnet 4.6 在 Terminal-Bench 2.0 上没有公布独立得分，但 Claude Code 框架（使用 Opus 4.6）得分 58.0%，比 GPT-5.3-Codex 的 77.3% 低接近 20 个百分点。这个差距在终端自动化场景中是实际可感知的。

SWE-bench 测试代码变更，Terminal-Bench 测试完整的开发工作流：读代码、运行测试、解读输出、修复问题、提交。这更接近开发者实际使用编程 Agent 的方式。Terminal-Bench 奖励快速迭代和精准的命令执行。得分最高的模型倾向于发出简短、精确的终端命令，而不是规划冗长的序列。GPT-5.3-Codex 和 Gemini 3.1 Pro 并列榜首，Claude Code 落后约 5 个百分点，尽管差距已较早期版本缩小。这是 Claude 进步空间最大的基准。

对于以终端操作、CI/CD 自动化、Shell 脚本、DevOps 工作流为核心的开发者，这个差距是选型时应该认真权衡的因素。

六、OSWorld：Sonnet 4.6 的意外优势

OSWorld-Verified 测试的是 AI 在真实桌面计算机环境中完成生产力任务的能力——通过视觉识别界面元素、执行点击和键盘操作。这个基准测的不只是写代码，而是”在电脑上干活”的综合能力。

在这个维度，Claude Sonnet 4.6 的得分（72.5%）明显高于 GPT-5.3-Codex（64.7%），且接近人类基准水平（约 72%）。

这个优势对于需要 AI 直接操作 GUI 工具（浏览器、IDE、办公软件）的自动化场景有实际意义，虽然这类场景在纯编程工作流中占比相对较低。

七、价格：两者处于不同的定价梯队

模型	输入价格（每百万 Token）	输出价格（每百万 Token）	上下文窗口	定位
Claude Sonnet 4.6	$3.00	$15.00	1M Token（标准定价全覆盖）	均衡全能，日常开发默认
GPT-5.3-Codex	$1.75（参考）	较高	1M Token	编程专项，Agent 工作流
Claude Opus 4.6	$5.00	$25.00	1M Token（标准定价全覆盖）	旗舰推理，复杂工程任务

GPT-5.3-Codex 的 API 定价尚未在公开文档中统一发布，不同来源的引用价格（$1.75/$14 等）可能参考的是不同版本或渠道。在正式使用前，建议以 OpenAI 官方定价页面为准。

从目前可获取的信息来看，两款模型在输入价格层面比较接近，但 Sonnet 4.6 的优势在于 1M Token 上下文在标准定价内全额覆盖，无需担心长上下文的溢价。

八、两款模型各自擅长的场景

综合以上数据，以下是一个可以直接用于选型决策的场景分类：

Claude Sonnet 4.6 更适合的场景

Python 为主的代码库：SWE-bench Verified 上的领先在 Python 工程任务中有实际体现
需要 1M Token 上下文处理超大代码库：标准定价全覆盖，无溢价，适合全仓库分析
计算机使用（GUI 自动化）：OSWorld 72.5% 明显领先，适合需要操作桌面应用的工作流
编程以外还有大量非编程任务：Sonnet 4.6 是全能型模型，写作、分析、代码同等能力，不需要为不同任务切换多个模型
已经在使用 Claude 生态（Claude Code、Projects）：生态整合无迁移成本
复杂安全审查：Claude 在识别高级安全漏洞上经过验证有优势

GPT-5.3-Codex 更适合的场景

多语言代码库的真实工程任务：SWE-bench Pro 56.8% 领先所有竞品，在 Python 以外的语言上更有优势
终端密集型工作流：Terminal-Bench 77.3% 是当前最高水平之一，DevOps 和 Shell 自动化场景表现更强
长时间 Agent 编程会话：专为 Agent 工作流设计，1M 上下文 + 上下文压缩机制，适合大型重构和迁移任务
需要与 GitHub / OpenAI 生态深度集成：Codex 在 GitHub Copilot 工作流中有更自然的集成路径
速度是重要因素：GPT-5.3-Codex 比 GPT-5.2-Codex 快 25%，对需要实时响应的开发场景有优势

九、”最强编程模型”这个问题本身的问题

数据看完，值得退一步想一个更根本的问题：”最强编程模型”这个提法是否有意义？

没有任何一个评估赢得所有评价。Claude Opus 4.6 领先 SWE-bench Verified，GPT-5.3-Codex 领先 Terminal-Bench，在 SWE-bench Pro（SEAL）上 Claude Opus 4.5 领先。

这不是评测机构不够严谨，而是”编程”本身是一个多维度的复合能力：写函数、调试 Bug、重构代码库、管理构建系统、分析安全漏洞、处理跨语言项目——每个维度需要的底层能力不同，不同模型在不同维度有各自的优化方向。

对于任何具体的开发团队，最强的编程模型是在你的代码库、你的语言栈、你的工作流上效果最好的那个，而不是在某个标准化基准上得分最高的那个。

两款模型都在各自的主场基准上处于前沿水平。对于日常工程任务，两者的差距在大多数常见场景下小于 2 个百分点，很难在日常使用中感知到。真正的差距集中在边界场景：多语言大型工程任务上 GPT-5.3-Codex 更可靠，终端工作流上同样如此；而 Sonnet 4.6 在 Python 生态、上下文质量和非编程任务上有优势。

十、一个实用的决策框架

如果你现在需要为团队选型，以下问题的答案可以帮你快速定位：

你的代码库主要是什么语言？如果以 Python 为主，两者差距微小；如果是多语言混合，GPT-5.3-Codex 的 SWE-bench Pro 优势有参考价值
终端操作和 Shell 自动化是不是你的核心需求？如果是，GPT-5.3-Codex 在这个维度明显更强
你的任务会不会涉及编程以外的内容？如果还需要写文档、做分析、处理多媒体，Sonnet 4.6 的全能特性让你不必在不同任务间切换模型
你已经在哪个生态里深度投入？迁移成本是真实的，生态整合带来的效率提升不容忽视
你测试过了吗？拿自己的真实代码任务在两款模型上各跑一批，是比所有基准数字都更可信的依据

总结

用数据说话的结论是：Claude Sonnet 4.6 在 SWE-bench Verified（79.6% vs 78.0%）和 OSWorld（72.5% vs 64.7%）上领先 GPT-5.3-Codex；GPT-5.3-Codex 在 SWE-bench Pro（56.8%，全榜第一）和 Terminal-Bench 2.0（77.3%）上领先 Claude Sonnet 4.6。

没有一个全场景下的绝对最强。这不是模糊的外交辞令，而是两款模型在不同维度上确实有不同优化方向的客观结果。

对于大多数使用 Python 为主、偶尔需要编程以外任务的开发者，Sonnet 4.6 是更自然的选择；对于需要在多语言环境下做大型工程 Agent 任务、或者终端操作占核心比重的场景，GPT-5.3-Codex 的专项优化有实际价值。

更多关于 Claude Sonnet 4.6 能力说明和最新功能更新，欢迎访问 Claude Ai中文官网 查阅持续更新的中文开发者文档。

基准测试告诉你模型在标准条件下的极限，真实项目告诉你模型在你的约束下的表现。前者是选型的参考，后者才是决策的依据。

编

Claude

资深科技编辑

Claude Sonnet 4.6 和 GPT-5.3 Codex 现在谁是最强编程模型？最新数据说话