📌 内容摘要

  • 从 Claude 3.7 到 Claude 4 系列,Anthropic 在不到半年内完成了一次代际升级——本文梳理这段时间最重要的变化。
  • 对开发者影响最大的三件事:100万 token 上下文转为标准价格、自适应推理正式落地、Claude Code 独立为产品线。
  • 按类别组织:模型能力升级、API 新特性、定价变化、产品线扩展,查找方便。
  • 每条更新附”对我有什么影响”的实际分析,不是单纯罗列发布日志。

一、背景:这段时间发生了什么

2025年底到2026年3月,Anthropic 的发布节奏明显加快。从 Claude 3.7 Sonnet(2025年2月)到 Claude 4 系列正式确立(2025年下半年),再到2026年初 Claude Opus 4.6 和 Sonnet 4.6 的迭代,这大约一年多的时间里,Claude 的能力边界移动幅度比之前几年都大。

对普通用户来说,最明显的感受是:Claude 在代码任务上”突然变强了很多”,而且超长文档处理不再是要额外付费的特殊功能。对开发者来说,API 层面的变化同样值得认真梳理一遍。

二、模型能力:最重要的几个升级

自适应推理(Adaptive Reasoning)

这是 Claude 4 系列最核心的架构改变,也是让很多人感觉”Claude 变聪明了”的根本原因。

早期的 Claude 对所有问题用同样的方式处理。自适应推理让 Claude 能根据问题的复杂度,自动决定是否需要”深度思考”——简单问题快速直接回答,复杂问题先内部推理再给出结论。

对开发者最实际的意义是:你不需要在 Prompt 里手动加”请一步一步思考”来触发推理,Claude 会自己判断什么时候需要。同样的 Prompt,在复杂任务上的准确率明显提升,但在简单任务上也不会因为”过度思考”而变慢。

代码能力的代际跳跃

SWE-bench 评测上,Claude Opus 4.6 达到 80.8%,Sonnet 4.6 达到 79.6%,这两个数字在2026年3月是全球最高水平。

更有意义的是 Terminal-Bench 2.0 的结果——Opus 4.6 得分 65.4%,排名第一。Terminal-Bench 测试的是模型在真实终端环境里完成复杂任务的能力,比 SWE-bench 更接近实际开发场景。这个结果基本确认了 Claude 在”真正能自主完成开发任务”这件事上的领先。

长上下文变成标配

这个变化很多人没有特别注意,但对成本影响很大:100万 token 上下文从需要额外申请/付费的功能,变成了 Sonnet 4.6 和 Opus 4.6 的标准配置,不需要溢价。

对比:GPT-5.4 的标准上下文是 12.8 万 token,Claude Sonnet 4.6 是 100 万 token,差距接近 8 倍。之前这个差距是存在的,但需要付更多钱才能用到。现在不用了。

✅ 对开发者的实际影响
如果你之前因为成本问题,在”直接塞入大上下文 vs 建向量数据库做 RAG”之间选了 RAG——现在可以重新评估了。对于文档数量不是特别大(200份以内)的场景,直接用大上下文可能更简单也更省事,而且成本已经不再是问题。

三、API 层面的新特性

Prompt Caching 正式转为标准功能

Prompt Caching 在2025年已经存在,但2026年初转为所有账号默认可用的标准功能,不需要申请白名单。规则没变:缓存内容写入时收 1.25 倍费用,后续读取只收 0.1 倍,5分钟内有效。

对于有固定长 System Prompt 或者反复查询同一份文档的场景,这个功能能把输入成本降 80-90%。如果你还没用过,现在是接入的好时机——不需要申请,直接在 system 里加 cache_control 就能用。

Batch API 成为主流省钱路径

Batch API(异步批量处理,5折)在这段时间逐渐被更多团队采用。Anthropic 对 Batch API 没有 RPM 限制——这意味着对于离线任务,你可以一次提交几万个请求,不用担心速率限制,成本还只有实时 API 的一半。

目前 Batch API 支持所有主流模型,结果通常在几分钟到几小时内返回(取决于批量大小)。

Tool Use 并行调用稳定性提升

Claude 4 系列在 Tool Use 场景下,并行工具调用的稳定性明显好于之前版本。具体表现是:Claude 更擅长判断哪些工具调用可以并行(不互相依赖),哪些需要串行(有数据依赖),自动编排的准确率提升了。对于构建 Agent 系统的开发者,这意味着需要手动干预工具调用顺序的情况减少了。

四、定价变化

模型 输入(/M tokens) 输出(/M tokens) 上下文窗口
Claude Opus 4.6 $5 $25 100万 token
Claude Sonnet 4.6 $3 $15 100万 token
Claude Haiku 4.5 $1 $5 20万 token

2026年3月标准价格,不含 Prompt Caching 和 Batch API 折扣。

相比2025年初,最显著的定价变化是:大上下文的溢价消失了。之前要用 100 万 token 窗口需要额外支付,现在 Sonnet 和 Opus 的 100 万 token 窗口就是标准价格的一部分。

五、产品线扩展:Claude Code

Claude Code 是这段时间 Anthropic 在产品层面最重要的动作之一。它从一个 CLI 工具逐渐演变成了一个独立的开发者产品线,年化营收已经超过 25 亿美元(2026年初数据)。

对开发者的意义是:Claude Code 不只是”在终端里聊天的 Claude”,它能自主完成跨文件的重构、理解整个代码库的上下文、在本地运行命令并根据结果调整方案。在实际测试中,Claude Code 在复杂的 bugfix 任务上的完成率远高于普通的代码补全工具。

从 API 角度看,Claude Code 背后用的是 Opus 4.6,这也解释了为什么 Opus 的 Agent 能力(自主任务、多步执行)是这次重点优化的方向。

六、企业采用数据(背景参考)

这些数字对判断”Claude 是否是一个可靠的长期选择”有参考价值:

  • Anthropic 年化营收:140 亿美元(2026年2月),连续三年 10 倍增速
  • Fortune 100 企业采用率:70%,超过 500 家企业年消费超百万美元
  • G 轮融资:300 亿美元,估值 3800 亿美元
  • 三大云平台覆盖:AWS Bedrock、Google Vertex AI、Microsoft Azure 均已上线

这些数据的意义不是”Anthropic 很赚钱”,而是:这家公司有足够的资金和商业动力持续维护和迭代 Claude API,不太可能突然停服或大幅削减能力。对于在生产系统里依赖 Claude API 的开发者,这是一个重要的稳定性信号。

七、对现有代码的影响

如果你有在跑的 Claude API 项目,这段时间的变化对你的代码影响有限——Anthropic 的接口向后兼容性做得比较好,Claude 3 时代的代码在 Claude 4 的 API 上通常不需要修改。

但有几件事值得主动检查:

  • model string 是否是最新的:如果你还在用 claude-3-sonnet-20240229 这类旧版本,现在迁移到 claude-sonnet-4-6 能明显提升效果
  • 有没有用上 Prompt Caching:如果你有固定的长 System Prompt,加几行 cache_control 就能省很多钱
  • 离线任务有没有迁移到 Batch API:如果你还在用实时 API 跑批量任务,迁移到 Batch API 直接省 50%
  • 上下文窗口是否充分利用:之前因为成本限制了上下文长度的地方,现在可以考虑放开

八、接下来可能会有什么

基于 Anthropic 的公开信息和当前的技术趋势,几个方向值得关注(不是官方路线图,是推测):

Agent 能力会继续是重点。Claude Code 的成功和 Opus 4.6 在 Terminal-Bench 上的表现,都指向 Anthropic 在自主任务执行上的持续投入。API 层面的 Agent 相关功能(工具调用、多步执行、状态管理)预计会有进一步完善。

多模态输入可能会扩展。目前 Claude 支持图片输入,但音频和视频还不支持。这是竞争对手已经在做的方向,Claude 跟进只是时间问题。

Haiku 系列的迭代。Haiku 4.5 相比 Sonnet/Opus 更新频率较低,在轻量任务上的性价比优势明显,预计会有针对性的能力提升。

总结

这段时间 Claude 最值得关注的三件事:代码能力的代际跳跃(SWE-bench 第一不只是数字,是真实的任务完成能力)、100万 token 上下文转为标准定价(重新评估你的架构决策)、Claude Code 成为独立产品线(Agent 方向的商业验证)。API 层面的 Prompt Caching 和 Batch API 普及,是已经可以立刻用上的省钱机会,如果还没用上,现在是最好的时机。