📌 内容摘要
- Claude Opus 4.6 于2026年2月5日正式发布,是 Anthropic 迄今最强旗舰模型。
- 核心升级:1M token 上下文(Beta)、自适应推理、128K 输出、Context Compaction 无限对话。
- 多项基准测试第一:Terminal-Bench 2.0 代码得分 65.4%,GDPval-AA 领先 GPT-5.2 整整 144 分。
- Agent Teams 支持多个 Claude 实例并行协作,已实现从零构建10万行 C 编译器的壮举。
- 定价维持 $5/$25(每百万 token),相比上上代 Opus 4.1 降价 67%。
一、发布背景:AI军备竞赛的2026年2月
2026年2月5日上午10点,Anthropic 正式推出 Claude Opus 4.6。然而仅仅20分钟后,OpenAI 随即发布了 GPT-5.3 Codex——这场精心时间节点的竞争,折射出当前 AI 顶尖模型之间白热化的市场角力。
这次发布的背景尤为重要:Anthropic 在发布前签署了一份100亿美元融资、估值3500亿美元的条款书(据彭博社报道),Claude Code 在发布后6个月内已实现10亿美元年化营收。Opus 4.6 不只是一次技术迭代,更是 Anthropic 向企业市场全面进攻的战略宣言。
二、核心新特性详解
1. 1M Token 上下文窗口(Beta)
这是 Opus 系列首次支持百万级上下文,也是本次发布最受关注的升级。在 MRCR v2 长文本检索基准测试中,Opus 4.6 得分 76%,而上一代 Sonnet 4.5 仅为 18.5%——这不是量变,而是质变。
长期困扰开发者的”上下文衰减”(context rot)问题——即对话越长模型越”遗忘”——在 Opus 4.6 中得到了根本性改善。超大型代码库、500页法律合同、整本书的分析,现在都可以一次性送入模型。
1M 上下文目前处于 Beta 阶段。当输入超过 200K token 时,会触发长上下文溢价定价:$10/$37.50(标准为 $5/$25)。使用前建议评估实际需求,大多数任务在 200K 以内完全够用。
2. 自适应思考(Adaptive Thinking)
这是 Opus 4.6 在推理机制上最重要的创新。此前的”扩展思考”(Extended Thinking)需要开发者手动开启,而 Adaptive Thinking 让 Claude 自己判断什么时候需要深度推理。
系统提供四个努力等级:low、medium、high(默认)、max。在 high 模式下,Claude 对几乎所有问题都会主动启动深度推理;对于简单问题则跳过,节省成本。开发者可以通过 effort 参数进行调控:
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={"type": "adaptive"}, # 自适应模式
# effort="max" # 可选:强制最高推理深度
messages=[{"role": "user", "content": "你的复杂问题"}]
)
3. Context Compaction(上下文压缩)
这是专为长时间运行 Agent 设计的功能。当对话接近 token 上限时,Claude 自动将历史对话总结压缩成一个精简的”压缩块”,释放上下文空间继续运行——实现理论上的无限对话,不会因 token 耗尽而崩溃中断。
对于需要持续运行数小时的自动化 Agent(如大型代码重构、长期研究任务),这一特性的价值难以估量。
4. 128K 最大输出 Token
输出上限从上一代的 64K 翻倍至 128K token,约相当于一部中篇小说的字数。这为超长代码生成、详细研究报告、大规模文档翻译提供了充足空间。
5. Agent Teams(多 Agent 团队协作)
这是本次发布最具前瞻性的特性,目前以研究预览形式随 Claude Code 推出。Agent Teams 允许多个 Claude 实例并行工作:一个”主导 Agent”负责协调分工,多个”队友 Agent”各自负责不同子任务,每个 Agent 拥有独立的上下文窗口。
Anthropic 在发布会上展示了一个令人震撼的案例:Agent Teams 从零构建了一个完整的 C 编译器,10万行代码,支持三种 CPU 架构,并能成功启动 Linux 系统。Cursor 联合创始人 Michael Truell 评价:”Opus 4.6 在最难的问题上表现出众,它能坚持完成其他模型会放弃的长任务。”
三、基准测试成绩:多项第一
| 基准测试 | Opus 4.6 | Opus 4.5(上代) | GPT-5.2 | 说明 |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 65.4%(第一) | — | 64.7% | 自主 Agent 代码能力 |
| SWE-bench Verified | 80.8% | 80.9% | — | 真实 GitHub Issue 修复 |
| ARC-AGI-2 | 68.8% | 37.6% | 54.2% | 纯逻辑推理,无法靠记忆 |
| GDPval-AA Elo | 1606(第一) | 1416 | 1462 | 金融法律等真实办公任务 |
| BrowseComp | 86.8%(第一) | — | — | 联网搜索难题定位能力 |
| MRCR v2(1M上下文) | 76% | 18.5% | — | 长文本多针检索 |
| OpenRCA(故障诊断) | 34.9% | 26.9% | — | 软件故障根因分析 |
数据来源:Anthropic 官方公告、DataCamp、DigitalApplied,2026年2月
最值得关注的是 ARC-AGI-2 的飞跃:从 Opus 4.5 的 37.6% 一跃至 68.8%,几乎翻倍,这是一个专门设计用来抵抗记忆效应的纯逻辑推理测试,代表了真正的推理能力提升。
四、开发者注意:重要 Breaking Change
Opus 4.6 不再支持 Assistant Message Prefilling(在 messages 数组中预填写 assistant 角色的部分内容来引导回答格式)。发送包含 prefill 的请求会直接返回 400 错误。需要迁移到结构化输出(Structured Outputs)或通过 System Prompt 来控制输出格式。
其他 API 变化:
- 模型 ID:
claude-opus-4-6(无日期后缀,与旧版命名规则不同) thinking: {type: "enabled"}和budget_tokens已废弃,统一使用adaptive模式- 128K 输出需要开启 streaming,否则会遇到 HTTP 超时
- 新增
inference_geo参数,支持指定 US-only 推理(价格乘以 1.1x)
五、定价与版本对比
| 版本 | 输入价格 | 输出价格 | 较 Opus 4.1 降幅 |
|---|---|---|---|
| Claude Opus 4.6(现版) | $5.00 | $25.00 | ↓ 67% |
| Claude Opus 4.1(旧版) | $15.00 | $75.00 | 基准 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | — |
定价保持与 Opus 4.5 一致($5/$25),但相较于 Opus 4.1 的 $15/$75 降幅高达 67%。值得注意的是,超过 200K token 的长上下文请求会触发溢价:$10/$37.50。
六、企业应用:谁在用 Opus 4.6?
随着 Opus 4.6 发布,Anthropic 披露了一批标志性企业客户。Uber、Salesforce、Accenture、Spotify、Rakuten、Snowflake、Novo Nordisk、Ramp 等已将 Claude Code 应用于软件工程、金融分析、信任与安全等核心业务场景。
根据 Andreessen Horowitz 的调查数据,44% 的企业在生产环境中使用 Anthropic——这一数字在2024年3月几乎为零,增速令整个行业震惊。Notion AI 负责人 Sarah Sachs 表示:”它不再只是一个工具,感觉更像是一个真正有能力的协作者。”
七、争议:写作质量真的下降了吗?
Opus 4.6 发布后,社区中出现了一个值得注意的声音:部分用户反映写作输出质量不如 Opus 4.5,文风更平淡、更通用,缺少之前的表达细腻感。
这一现象在长篇文学创作和品牌文案场景中反映最为集中。Anthropic 尚未就此给出官方解释。如果你的核心需求是高质量中文写作或文学创作,建议在升级前自行测试,对比两代模型的实际输出。技术任务(代码、推理、分析)上的提升是确定的,写作风格方面则存在个体感知差异。
八、Claude Opus 4.6 vs 竞品:一句话总结
| 对比维度 | Claude Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|
| 自主代码能力 | 第一(65.4%) | 第二(64.7%) | 第三 |
| 知识工作任务 | 第一(1606 Elo) | 1462 Elo | 1317 Elo |
| 逻辑推理 | 68.8% | 54.2% | 77.1%(第一) |
| 上下文窗口 | 1M(Beta) | 1M | 2M(正式) |
| API 定价(输入) | $5.00 | $2.50 | $2.00(最低) |
总结
Claude Opus 4.6 是 Anthropic 迄今最重要的一次模型发布。1M 上下文窗口、自适应推理、Context Compaction 和 Agent Teams,共同将 Claude 从”优秀的对话助手”推向”可持续运行的自主协作者”。在代码工程和专业知识工作两个最重要的商业维度上,Opus 4.6 均居全球榜首。
对于开发者,现在就可以通过 claude-opus-4-6 接入 API 体验;对于企业用户,Agent Teams 和 Office 集成值得立即启动评估周期。唯一的建议:升级前先做好 prefilling 迁移测试,以及在写作类场景中自行对比新旧版本的输出质量。