📌 内容摘要
- Claude API 按 token 量计费,输入和输出分别定价,输出价格约为输入的 5 倍。
- 2026年3月最新价格:Opus 4.6 为 $5/$25,Sonnet 4.6 为 $3/$15,Haiku 4.5 为 $1/$5(每百万 token)。
- 三大省钱技巧:Prompt Caching(省90%)、Batch API(省50%)、模型分流路由(省60%)。
- 新用户注册送 $5 免费额度,无需绑卡即可开始测试。
一、先搞懂:什么是 token?
Claude API 的所有计费都以 token 为单位,而不是字数或字符数。理解 token 是理解计费逻辑的第一步。
Token 是模型处理文本的最小单位,大致规律如下:
| 语言 | 换算关系 | 举例 |
|---|---|---|
| 英文 | 约 1 token = 4 个字符 / 0.75 个单词 | 「Hello world」≈ 3 tokens |
| 中文 | 约 1 个汉字 = 1.5–2 个 token | 「你好世界」≈ 6–8 tokens |
| 代码 | 约 1 token = 3–4 个字符 | 因语言和缩进而异 |
实际使用中,1000个中文字符大约消耗 1500–2000 个 token,可以用这个比例粗略估算成本。
Claude API 的输入和输出是分开计费的,输出价格约为输入价格的 5 倍。在设计 Prompt 时,控制输出长度是降低成本最直接的方法。
二、2026年3月最新定价
| 模型 | 输入(每百万 token) | 输出(每百万 token) | 上下文窗口 | 定位 |
|---|---|---|---|---|
| Claude Opus 4.6 | $5.00 | $25.00 | 1M(正式) | 最强推理,复杂任务 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1M(正式) | 日常开发首选 |
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K | 高频调用,轻量任务 |
| Claude Opus 4.1(旧) | $15.00 | $75.00 | 200K | 已被新版本替代 |
最值得关注的是 Opus 系列大降价:Opus 4.6 的价格($5/$25)相比上上代 Opus 4.1($15/$75)降低了 67%,旗舰模型首次真正变得亲民。
三、实际成本怎么算?真实场景示例
场景一:客服聊天机器人(Sonnet 4.6)
一个月处理 500 万输入 token + 200 万输出 token:
- 输入成本:500万 × $3/百万 = $15
- 输出成本:200万 × $15/百万 = $30
- 月总费用:$45(约 330 元人民币)
场景二:SEO 内容批量生成(Haiku 4.5)
每月生成 2000 篇短文,每篇约 500 字:
- 输入:40万 token × $1/百万 = $0.40
- 输出:200万 token × $5/百万 = $10
- 月总费用:约 $10.40(约 75 元人民币)
场景三:代码审查助手(Opus 4.6)
每天审查 50 个 PR,每次约 2000 token 输入 + 500 token 输出:
- 输入:300万 token × $5/百万 = $15
- 输出:75万 token × $25/百万 = $18.75
- 月总费用:约 $33.75(约 245 元人民币)
四、三大核心省钱技巧
技巧一:Prompt Caching(省90%)
如果你的应用有固定的系统提示,Prompt Caching 是单笔成本优化中效果最显著的手段。
缓存收费规则:
- 首次写入缓存:按 1.25x 标准输入价格计费(多花25%)
- 命中缓存读取:按 0.1x 标准输入价格计费(省90%)
- 缓存有效期:默认 5 分钟,可延长至 1 小时(写入按 2x 计费)
只要同一系统提示在5分钟内被调用 2 次以上,缓存就开始净省钱。
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
system=[
{
"type": "text",
"text": "你是一个专业的客服助手...(此处填入长系统提示)",
"cache_control": {"type": "ephemeral"} # 开启缓存
}
],
messages=[{"role": "user", "content": "用户的问题"}]
)
技巧二:Batch API(省50%)
Batch API 允许异步处理大批量请求,输入和输出 token 均享受 50% 折扣。适合以下场景:
- 批量生成 SEO 文章、产品描述
- 定时运行的数据分析任务
- 大规模文档翻译或格式转换
- 离线的数据标注和分类任务
唯一限制是非实时——不适合需要即时响应的场景。如果任务可以接受延迟,开启 Batch API 是最轻松的省钱方式,不需要修改任何业务逻辑。
技巧三:模型分流路由(省60%)
将 70% 的简单任务分配给 Haiku、20% 给 Sonnet、10% 给 Opus,与全程使用 Sonnet 相比,综合成本可降低约 60%。
def select_model(task_complexity: str) -> str:
routing = {
"simple": "claude-haiku-4-5-20251001", # $1/$5
"medium": "claude-sonnet-4-6", # $3/$15
"complex": "claude-opus-4-6", # $5/$25
}
return routing.get(task_complexity, "claude-sonnet-4-6")
五、其他计费项说明
工具调用(Tool Use):工具定义、调用和结果都按 token 计费,每次工具调用额外增加约 346 个 token 的系统提示开销。
联网搜索工具:按每 1000 次搜索 $10 计费,另加处理搜索结果所需的标准 token 费用。
Extended Thinking(深度推理):内部推理 token 按输出价格计费,不是单独收费。开启深度推理会显著增加 token 消耗,建议只在真正需要复杂推理的任务上使用。
新用户免费额度:新用户注册后可获得 $5 免费额度,无需绑定信用卡,额度不会过期。以 Sonnet 4.6 计算,$5 大约可以处理 160 万输入 token 或 33 万输出 token。
六、与竞品价格对比
| 模型 | 输入(每百万 token) | 输出(每百万 token) | 定位 |
|---|---|---|---|
| Claude Sonnet 4.6 | $3.00 | $15.00 | 综合首选 |
| Claude Haiku 4.5 | $1.00 | $5.00 | 高频低成本 |
| GPT-5.4 | $2.50 | $20.00 | 输出较贵 |
| Gemini 3.1 Pro(≤200K) | $2.00 | $12.00 | 价格最低 |
| DeepSeek V3.2 | $0.28 | $0.42 | 极低价,中文为主 |
七、常见问题
Q:如何查看每次调用消耗了多少 token?
每次 API 调用的响应对象里都包含 usage 字段,显示本次调用的 input_tokens 和 output_tokens。Console 后台的 Usage 页面也提供按模型、按时间段的 token 消耗统计,可以导出明细。
Q:Prompt Caching 必须手动开启吗?
是的,需要在 API 请求中显式加入 cache_control 参数才会开启缓存。Anthropic 不会自动缓存提示词。建议对长度超过 1024 token 的系统提示开启缓存,成本收益最明显。
Q:Batch API 处理时间有保证吗?
Anthropic 承诺批量请求在 24 小时内完成,实际通常在几分钟到几小时内处理完毕。批量任务支持中途查询进度,也可以取消尚未处理的请求。
Q:如何设置月度消费限额?
在 Console → Billing → Usage limits 中可以设置月度最高消费上限。达到上限后 API 调用会返回错误,而不会继续扣费。建议同时开启邮件提醒,在达到 80% 时收到预警。
Q:Extended Thinking 会额外收费吗?
Extended Thinking 模式生成的内部推理 token 按输出价格计费,不是单独收费。开启深度推理会显著增加 token 消耗量,建议只在复杂推理任务上使用。
总结
Claude API 的计费逻辑并不复杂:输入 + 输出按 token 量付费,输出约贵5倍。掌握这个基本规律后,根据任务量选对模型,再叠加 Prompt Caching 和 Batch API 两个折扣工具,大多数应用的 API 成本都可以控制在合理范围内。
对于刚开始接入的开发者,建议从 Sonnet 4.6 + 开启 Prompt Caching 作为起点,先把核心功能跑通,再根据实际消耗数据调整模型选择。