📌 内容摘要

  • Claude API 按 token 量计费,输入和输出分别定价,输出价格约为输入的 5 倍。
  • 2026年3月最新价格:Opus 4.6 为 $5/$25,Sonnet 4.6 为 $3/$15,Haiku 4.5 为 $1/$5(每百万 token)。
  • 三大省钱技巧:Prompt Caching(省90%)、Batch API(省50%)、模型分流路由(省60%)。
  • 新用户注册送 $5 免费额度,无需绑卡即可开始测试。

一、先搞懂:什么是 token?

Claude API 的所有计费都以 token 为单位,而不是字数或字符数。理解 token 是理解计费逻辑的第一步。

Token 是模型处理文本的最小单位,大致规律如下:

语言 换算关系 举例
英文 约 1 token = 4 个字符 / 0.75 个单词 「Hello world」≈ 3 tokens
中文 约 1 个汉字 = 1.5–2 个 token 「你好世界」≈ 6–8 tokens
代码 约 1 token = 3–4 个字符 因语言和缩进而异

实际使用中,1000个中文字符大约消耗 1500–2000 个 token,可以用这个比例粗略估算成本。

💡 一个重要规律:输出比输入贵得多
Claude API 的输入和输出是分开计费的,输出价格约为输入价格的 5 倍。在设计 Prompt 时,控制输出长度是降低成本最直接的方法。

二、2026年3月最新定价

模型 输入(每百万 token) 输出(每百万 token) 上下文窗口 定位
Claude Opus 4.6 $5.00 $25.00 1M(正式) 最强推理,复杂任务
Claude Sonnet 4.6 $3.00 $15.00 1M(正式) 日常开发首选
Claude Haiku 4.5 $1.00 $5.00 200K 高频调用,轻量任务
Claude Opus 4.1(旧) $15.00 $75.00 200K 已被新版本替代

最值得关注的是 Opus 系列大降价:Opus 4.6 的价格($5/$25)相比上上代 Opus 4.1($15/$75)降低了 67%,旗舰模型首次真正变得亲民。

三、实际成本怎么算?真实场景示例

场景一:客服聊天机器人(Sonnet 4.6)

一个月处理 500 万输入 token + 200 万输出 token:

  • 输入成本:500万 × $3/百万 = $15
  • 输出成本:200万 × $15/百万 = $30
  • 月总费用:$45(约 330 元人民币)

场景二:SEO 内容批量生成(Haiku 4.5)

每月生成 2000 篇短文,每篇约 500 字:

  • 输入:40万 token × $1/百万 = $0.40
  • 输出:200万 token × $5/百万 = $10
  • 月总费用:约 $10.40(约 75 元人民币)

场景三:代码审查助手(Opus 4.6)

每天审查 50 个 PR,每次约 2000 token 输入 + 500 token 输出:

  • 输入:300万 token × $5/百万 = $15
  • 输出:75万 token × $25/百万 = $18.75
  • 月总费用:约 $33.75(约 245 元人民币)

四、三大核心省钱技巧

技巧一:Prompt Caching(省90%)

如果你的应用有固定的系统提示,Prompt Caching 是单笔成本优化中效果最显著的手段

缓存收费规则:

  • 首次写入缓存:按 1.25x 标准输入价格计费(多花25%)
  • 命中缓存读取:按 0.1x 标准输入价格计费(省90%)
  • 缓存有效期:默认 5 分钟,可延长至 1 小时(写入按 2x 计费)

只要同一系统提示在5分钟内被调用 2 次以上,缓存就开始净省钱。

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "你是一个专业的客服助手...(此处填入长系统提示)",
            "cache_control": {"type": "ephemeral"}  # 开启缓存
        }
    ],
    messages=[{"role": "user", "content": "用户的问题"}]
)

技巧二:Batch API(省50%)

Batch API 允许异步处理大批量请求,输入和输出 token 均享受 50% 折扣。适合以下场景:

  • 批量生成 SEO 文章、产品描述
  • 定时运行的数据分析任务
  • 大规模文档翻译或格式转换
  • 离线的数据标注和分类任务

唯一限制是非实时——不适合需要即时响应的场景。如果任务可以接受延迟,开启 Batch API 是最轻松的省钱方式,不需要修改任何业务逻辑。

技巧三:模型分流路由(省60%)

将 70% 的简单任务分配给 Haiku、20% 给 Sonnet、10% 给 Opus,与全程使用 Sonnet 相比,综合成本可降低约 60%。

def select_model(task_complexity: str) -> str:
    routing = {
        "simple":  "claude-haiku-4-5-20251001",   # $1/$5
        "medium":  "claude-sonnet-4-6",            # $3/$15
        "complex": "claude-opus-4-6",              # $5/$25
    }
    return routing.get(task_complexity, "claude-sonnet-4-6")

五、其他计费项说明

工具调用(Tool Use):工具定义、调用和结果都按 token 计费,每次工具调用额外增加约 346 个 token 的系统提示开销。

联网搜索工具:按每 1000 次搜索 $10 计费,另加处理搜索结果所需的标准 token 费用。

Extended Thinking(深度推理):内部推理 token 按输出价格计费,不是单独收费。开启深度推理会显著增加 token 消耗,建议只在真正需要复杂推理的任务上使用。

新用户免费额度:新用户注册后可获得 $5 免费额度,无需绑定信用卡,额度不会过期。以 Sonnet 4.6 计算,$5 大约可以处理 160 万输入 token 或 33 万输出 token。

六、与竞品价格对比

模型 输入(每百万 token) 输出(每百万 token) 定位
Claude Sonnet 4.6 $3.00 $15.00 综合首选
Claude Haiku 4.5 $1.00 $5.00 高频低成本
GPT-5.4 $2.50 $20.00 输出较贵
Gemini 3.1 Pro(≤200K) $2.00 $12.00 价格最低
DeepSeek V3.2 $0.28 $0.42 极低价,中文为主

七、常见问题

Q:如何查看每次调用消耗了多少 token?
每次 API 调用的响应对象里都包含 usage 字段,显示本次调用的 input_tokensoutput_tokens。Console 后台的 Usage 页面也提供按模型、按时间段的 token 消耗统计,可以导出明细。

Q:Prompt Caching 必须手动开启吗?
是的,需要在 API 请求中显式加入 cache_control 参数才会开启缓存。Anthropic 不会自动缓存提示词。建议对长度超过 1024 token 的系统提示开启缓存,成本收益最明显。

Q:Batch API 处理时间有保证吗?
Anthropic 承诺批量请求在 24 小时内完成,实际通常在几分钟到几小时内处理完毕。批量任务支持中途查询进度,也可以取消尚未处理的请求。

Q:如何设置月度消费限额?
在 Console → Billing → Usage limits 中可以设置月度最高消费上限。达到上限后 API 调用会返回错误,而不会继续扣费。建议同时开启邮件提醒,在达到 80% 时收到预警。

Q:Extended Thinking 会额外收费吗?
Extended Thinking 模式生成的内部推理 token 按输出价格计费,不是单独收费。开启深度推理会显著增加 token 消耗量,建议只在复杂推理任务上使用。

总结

Claude API 的计费逻辑并不复杂:输入 + 输出按 token 量付费,输出约贵5倍。掌握这个基本规律后,根据任务量选对模型,再叠加 Prompt Caching 和 Batch API 两个折扣工具,大多数应用的 API 成本都可以控制在合理范围内。

对于刚开始接入的开发者,建议从 Sonnet 4.6 + 开启 Prompt Caching 作为起点,先把核心功能跑通,再根据实际消耗数据调整模型选择。