📌 内容摘要

  • Claude Opus 4.6 于2026年2月5日正式发布,是 Anthropic 迄今最强旗舰模型。
  • 核心升级:1M token 上下文(Beta)、自适应推理、128K 输出、Context Compaction 无限对话。
  • 多项基准测试第一:Terminal-Bench 2.0 代码得分 65.4%,GDPval-AA 领先 GPT-5.2 整整 144 分。
  • Agent Teams 支持多个 Claude 实例并行协作,已实现从零构建10万行 C 编译器的壮举。
  • 定价维持 $5/$25(每百万 token),相比上上代 Opus 4.1 降价 67%。

一、发布背景:AI军备竞赛的2026年2月

2026年2月5日上午10点,Anthropic 正式推出 Claude Opus 4.6。然而仅仅20分钟后,OpenAI 随即发布了 GPT-5.3 Codex——这场精心时间节点的竞争,折射出当前 AI 顶尖模型之间白热化的市场角力。

这次发布的背景尤为重要:Anthropic 在发布前签署了一份100亿美元融资、估值3500亿美元的条款书(据彭博社报道),Claude Code 在发布后6个月内已实现10亿美元年化营收。Opus 4.6 不只是一次技术迭代,更是 Anthropic 向企业市场全面进攻的战略宣言。

二、核心新特性详解

1. 1M Token 上下文窗口(Beta)

这是 Opus 系列首次支持百万级上下文,也是本次发布最受关注的升级。在 MRCR v2 长文本检索基准测试中,Opus 4.6 得分 76%,而上一代 Sonnet 4.5 仅为 18.5%——这不是量变,而是质变。

长期困扰开发者的”上下文衰减”(context rot)问题——即对话越长模型越”遗忘”——在 Opus 4.6 中得到了根本性改善。超大型代码库、500页法律合同、整本书的分析,现在都可以一次性送入模型。

⚠️ 注意:长上下文溢价
1M 上下文目前处于 Beta 阶段。当输入超过 200K token 时,会触发长上下文溢价定价:$10/$37.50(标准为 $5/$25)。使用前建议评估实际需求,大多数任务在 200K 以内完全够用。

2. 自适应思考(Adaptive Thinking)

这是 Opus 4.6 在推理机制上最重要的创新。此前的”扩展思考”(Extended Thinking)需要开发者手动开启,而 Adaptive Thinking 让 Claude 自己判断什么时候需要深度推理

系统提供四个努力等级:low、medium、high(默认)、max。在 high 模式下,Claude 对几乎所有问题都会主动启动深度推理;对于简单问题则跳过,节省成本。开发者可以通过 effort 参数进行调控:

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=16000,
    thinking={"type": "adaptive"},  # 自适应模式
    # effort="max"  # 可选:强制最高推理深度
    messages=[{"role": "user", "content": "你的复杂问题"}]
)

3. Context Compaction(上下文压缩)

这是专为长时间运行 Agent 设计的功能。当对话接近 token 上限时,Claude 自动将历史对话总结压缩成一个精简的”压缩块”,释放上下文空间继续运行——实现理论上的无限对话,不会因 token 耗尽而崩溃中断。

对于需要持续运行数小时的自动化 Agent(如大型代码重构、长期研究任务),这一特性的价值难以估量。

4. 128K 最大输出 Token

输出上限从上一代的 64K 翻倍至 128K token,约相当于一部中篇小说的字数。这为超长代码生成、详细研究报告、大规模文档翻译提供了充足空间。

5. Agent Teams(多 Agent 团队协作)

这是本次发布最具前瞻性的特性,目前以研究预览形式随 Claude Code 推出。Agent Teams 允许多个 Claude 实例并行工作:一个”主导 Agent”负责协调分工,多个”队友 Agent”各自负责不同子任务,每个 Agent 拥有独立的上下文窗口。

Anthropic 在发布会上展示了一个令人震撼的案例:Agent Teams 从零构建了一个完整的 C 编译器,10万行代码,支持三种 CPU 架构,并能成功启动 Linux 系统。Cursor 联合创始人 Michael Truell 评价:”Opus 4.6 在最难的问题上表现出众,它能坚持完成其他模型会放弃的长任务。”

三、基准测试成绩:多项第一

基准测试 Opus 4.6 Opus 4.5(上代) GPT-5.2 说明
Terminal-Bench 2.0 65.4%(第一) 64.7% 自主 Agent 代码能力
SWE-bench Verified 80.8% 80.9% 真实 GitHub Issue 修复
ARC-AGI-2 68.8% 37.6% 54.2% 纯逻辑推理,无法靠记忆
GDPval-AA Elo 1606(第一) 1416 1462 金融法律等真实办公任务
BrowseComp 86.8%(第一) 联网搜索难题定位能力
MRCR v2(1M上下文) 76% 18.5% 长文本多针检索
OpenRCA(故障诊断) 34.9% 26.9% 软件故障根因分析

数据来源:Anthropic 官方公告、DataCamp、DigitalApplied,2026年2月

最值得关注的是 ARC-AGI-2 的飞跃:从 Opus 4.5 的 37.6% 一跃至 68.8%,几乎翻倍,这是一个专门设计用来抵抗记忆效应的纯逻辑推理测试,代表了真正的推理能力提升。

四、开发者注意:重要 Breaking Change

⚠️ 升级前必看:prefilling 已废弃
Opus 4.6 不再支持 Assistant Message Prefilling(在 messages 数组中预填写 assistant 角色的部分内容来引导回答格式)。发送包含 prefill 的请求会直接返回 400 错误。需要迁移到结构化输出(Structured Outputs)或通过 System Prompt 来控制输出格式。

其他 API 变化:

  • 模型 ID:claude-opus-4-6(无日期后缀,与旧版命名规则不同)
  • thinking: {type: "enabled"}budget_tokens 已废弃,统一使用 adaptive 模式
  • 128K 输出需要开启 streaming,否则会遇到 HTTP 超时
  • 新增 inference_geo 参数,支持指定 US-only 推理(价格乘以 1.1x)

五、定价与版本对比

版本 输入价格 输出价格 较 Opus 4.1 降幅
Claude Opus 4.6(现版) $5.00 $25.00 ↓ 67%
Claude Opus 4.1(旧版) $15.00 $75.00 基准
Claude Sonnet 4.6 $3.00 $15.00

定价保持与 Opus 4.5 一致($5/$25),但相较于 Opus 4.1 的 $15/$75 降幅高达 67%。值得注意的是,超过 200K token 的长上下文请求会触发溢价:$10/$37.50。

六、企业应用:谁在用 Opus 4.6?

随着 Opus 4.6 发布,Anthropic 披露了一批标志性企业客户。Uber、Salesforce、Accenture、Spotify、Rakuten、Snowflake、Novo Nordisk、Ramp 等已将 Claude Code 应用于软件工程、金融分析、信任与安全等核心业务场景。

根据 Andreessen Horowitz 的调查数据,44% 的企业在生产环境中使用 Anthropic——这一数字在2024年3月几乎为零,增速令整个行业震惊。Notion AI 负责人 Sarah Sachs 表示:”它不再只是一个工具,感觉更像是一个真正有能力的协作者。”

七、争议:写作质量真的下降了吗?

Opus 4.6 发布后,社区中出现了一个值得注意的声音:部分用户反映写作输出质量不如 Opus 4.5,文风更平淡、更通用,缺少之前的表达细腻感。

这一现象在长篇文学创作和品牌文案场景中反映最为集中。Anthropic 尚未就此给出官方解释。如果你的核心需求是高质量中文写作或文学创作,建议在升级前自行测试,对比两代模型的实际输出。技术任务(代码、推理、分析)上的提升是确定的,写作风格方面则存在个体感知差异。

八、Claude Opus 4.6 vs 竞品:一句话总结

对比维度 Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro
自主代码能力 第一(65.4%) 第二(64.7%) 第三
知识工作任务 第一(1606 Elo) 1462 Elo 1317 Elo
逻辑推理 68.8% 54.2% 77.1%(第一)
上下文窗口 1M(Beta) 1M 2M(正式)
API 定价(输入) $5.00 $2.50 $2.00(最低)

总结

Claude Opus 4.6 是 Anthropic 迄今最重要的一次模型发布。1M 上下文窗口、自适应推理、Context Compaction 和 Agent Teams,共同将 Claude 从”优秀的对话助手”推向”可持续运行的自主协作者”。在代码工程和专业知识工作两个最重要的商业维度上,Opus 4.6 均居全球榜首。

对于开发者,现在就可以通过 claude-opus-4-6 接入 API 体验;对于企业用户,Agent Teams 和 Office 集成值得立即启动评估周期。唯一的建议:升级前先做好 prefilling 迁移测试,以及在写作类场景中自行对比新旧版本的输出质量。