Claude 在回答一个问题之前,通常会有一个简短的内部处理过程,然后直接给出答案。但对于某些需要深度推理的问题,这个”想一想”的过程明显不够用——结论跳得太快,中间推理链条不完整,复杂问题的处理质量因此受限。

Extended Thinking(扩展思考)模式是 Anthropic 针对这个问题的解决方案。开启后,Claude 会在给出最终回答之前,花更多时间进行深度的内部推理,你可以看到它”思考”的过程,最终答案也通常更有深度和准确性。

但 Extended Thinking 不是万能的。它需要更长的等待时间,消耗更多资源,在很多场景下并不能带来可感知的质量提升。本文由 Claude Ai中文官网 整理,把 Extended Thinking 的工作原理、开启方式、真实价值边界和适用场景说清楚,帮你判断什么时候值得开它,什么时候直接用标准模式就够了。

Extended Thinking 功能目前通过 API 的 Beta 参数提供,claude.ai 网页端的可用性以你账号的实际设置为准。功能细节随版本迭代可能调整,建议同时访问 Claude Ai中文官网 核实最新说明。

一、Extended Thinking 是怎么工作的

要判断什么时候值得用,先要理解它在做什么。

在标准模式下,Claude 接收输入后直接生成输出,中间的推理过程是隐式的、快速的,用户看不到,Claude 也不会在输出前系统性地检验自己的推理过程。对于简单到中等复杂度的问题,这已经足够;但对于需要多步骤逻辑推导、需要探索多个可能路径、或者需要在约束条件复杂的情况下找到最优解的任务,这种”快速推断”的方式会在质量上留下明显的天花板。

Extended Thinking 开启后,Claude 在生成最终回答之前会进入一个显式的思考阶段——它会在内部探索不同的推理路径、自我检验中间结论、识别并纠正推理中的错误,最后才基于这个深度处理过程给出回答。这个思考过程会以”思考块”(thinking block)的形式呈现,让你可以看到 Claude 是如何一步步推导到最终结论的。

一个关键细节:思考块的内容是 Claude 真实的推理过程,而不是为了展示给用户而生成的解释性内容。这意味着思考块可能包含 Claude 探索过但最终放弃的路径、发现自己之前错了然后修正的过程,以及普通回答中不会出现的推导细节。

二、Extended Thinking 的两种开启方式

方式 1:通过 API 参数开启(开发者)

在 API 请求中,通过 thinking 参数开启 Extended Thinking,并设置 budget_tokens 指定允许用于思考的最大 Token 数量:

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=16000,  # 需要大于 budget_tokens
    thinking={
        "type": "enabled",
        "budget_tokens": 10000  # 允许用于思考的最大 Token 数
    },
    messages=[
        {
            "role": "user",
            "content": "请分析以下商业决策的利弊,并给出你的推荐方案:[具体问题]"
        }
    ]
)

# 处理响应,区分思考内容和最终回答
for block in response.content:
    if block.type == "thinking":
        print("=== Claude 的思考过程 ===")
        print(block.thinking)
    elif block.type == "text":
        print("=== 最终回答 ===")
        print(block.text)

budget_tokens 的设置建议

budget_tokens 控制 Claude 愿意在思考上花费的最大 Token 数。这个值不是”思考一定会用到这么多 Token”,而是上限——Claude 会根据问题的实际复杂度自主决定用多少。

任务复杂度 建议 budget_tokens 适用场景
低至中等 1,000–5,000 需要一定推理但不算极复杂的分析任务
中等至高 5,000–10,000 多步骤推理、复杂决策分析
高度复杂 10,000–32,000 数学证明、复杂算法设计、深度研究分析
极度复杂 32,000+ 需要探索大量可能性的最高难度任务

设置过低的 budget_tokens 会限制思考深度,可能导致 Extended Thinking 的效果不如预期;设置过高会增加等待时间和成本,但对简单任务没有额外收益。建议从中等值开始,根据实际效果调整。

方式 2:通过 claude.ai 界面开启(网页端用户)

claude.ai 网页端对部分账号提供了 Extended Thinking 的界面入口。如果你的账号已开放此功能,通常可以在以下位置找到开关:

  • 对话输入框下方的工具栏,找到”Extended Thinking”或思考相关的图标
  • 模型选择菜单旁边的功能开关区域

开启后,发送的下一条消息会触发 Extended Thinking,思考过程会以可折叠的方式展示在最终回答之前。

如果你在界面上找不到这个入口,可能是功能尚未向你的账号开放,或者界面已经更新了入口位置。建议访问 Claude Ai中文官网 查阅当前版本的最新说明。

三、Extended Thinking 真正有价值的 6 个场景

场景 1:需要多步骤逻辑推导的数学和算法问题

这是 Extended Thinking 效果最显著的场景之一。对于需要 5 步以上推导才能得出结论的数学证明、算法复杂度分析、或者需要在多个约束条件下找最优解的问题,Extended Thinking 让 Claude 能够在内部完整走完推导链,而不是在中途跳步。

区别在哪里:标准模式下,Claude 可能会跳过某些中间步骤直接得出结论,而这些被跳过的步骤有时候恰恰包含了错误。Extended Thinking 能发现并纠正这些推导过程中的错误,最终答案的准确率显著更高。

请用 Extended Thinking 解决以下算法问题:

给定一个整数数组,找出所有满足以下条件的三元组 (a, b, c):
- a + b + c = 0
- 三元组不能重复
- 时间复杂度要求 O(n²)

请详细说明算法思路、证明正确性,并给出完整的 Python 实现。

场景 2:复杂的商业决策分析

当一个决策涉及多个相互制约的变量、多种利益相关方的考量、以及难以量化的长期影响时,Extended Thinking 能够系统性地探索不同维度,而不是给出表面上听起来合理但实际上忽略了关键因素的快速分析。

我们公司面临以下决策:是否将核心产品从 SaaS 订阅制转为按用量计费模式。

背景:
- 当前月活用户 5 万,平均 ARPU $80
- 轻度用户占比 60%,重度用户占比 40%
- 竞争对手中有 2 家已转为按量计费
- 团队工程资源需要 3 个月完成迁移

请深度分析这个决策的利弊,探讨不同场景下的可能结果,
并给出你的推荐方案和实施建议。

场景 3:代码架构和系统设计

设计一个需要满足多个非功能性要求(性能、可扩展性、可维护性、安全性)的系统架构,需要在不同设计方案之间做出有理有据的权衡。Extended Thinking 让 Claude 能够系统性地考虑各种架构方案的优缺点,而不是直接推荐第一个想到的方案。

场景 4:需要发现隐藏矛盾的逻辑分析

分析一段论证是否存在逻辑漏洞、检验一套规则体系中是否有自相矛盾的条款、或者验证一个推理链条的每一步是否成立——这类需要对每个环节做严格审查的任务,是 Extended Thinking 的适用场景。

场景 5:多约束条件下的最优化问题

资源分配、时间规划、策略组合——当你需要在多个约束条件下找到最优或接近最优的方案时,Extended Thinking 允许 Claude 探索更多的可能性组合,而不是在考虑了前几个选项后就停下来。

场景 6:需要高可靠性的专业判断

当 Claude 的回答将直接影响重要决策,且你希望它给出尽可能可靠的判断时,Extended Thinking 带来的额外推理深度是有价值的投入——即使只是帮助 Claude 识别出它自己不确定的地方,并主动说明,这本身就有价值。

四、Extended Thinking 不值得开的场景

以下场景开启 Extended Thinking 不会带来可感知的质量提升,只会增加等待时间和成本:

  • 事实性查询:“2024 年巴黎奥运会在哪里举办””Python 的 range 函数语法是什么”——这类问题不需要推理,Extended Thinking 没有用武之地。
  • 简单的格式转换:将文本从一种格式转为另一种格式、翻译、摘要——这些任务的质量瓶颈不在推理深度,而在语言能力,Extended Thinking 帮不上忙。
  • 创意写作:写一首诗、编一个故事——创意任务需要的是语言表达能力和想象力,不是逻辑推导能力,Extended Thinking 在这里没有优势。
  • 日常对话和轻量问答:大多数日常问题用标准模式已经能得到高质量的回答,不需要为此等待更长时间。
  • 有明确标准答案的技术问题:查询某个 API 的参数、确认某个语法是否正确——这类有唯一正确答案的问题不需要深度推理。

五、与标准模式的实际质量差距:诚实评估

Extended Thinking 带来的质量提升是真实存在的,但它不是在所有任务上都有显著差距,值得在这里做一个诚实的评估。

差距明显的领域:

  • 数学推导和证明:Extended Thinking 的准确率提升最为显著,尤其在需要多步骤推导的题目上
  • 复杂逻辑谜题:需要穷举或逐步排除的问题,Extended Thinking 完成率更高
  • 需要权衡多个相互制约因素的决策分析:分析深度和覆盖维度更完整

差距有限的领域:

  • 写作任务:质量主要取决于语言模型的表达能力,Extended Thinking 对文字质量的提升有限
  • 常规代码生成:标准模式已经能给出高质量代码,Extended Thinking 在简单到中等难度代码任务上的提升不明显
  • 知识性问答:如果答案在训练数据中有明确覆盖,推理深度不是瓶颈

一个实用的判断标准:如果你的任务需要你自己花时间仔细推导,Extended Thinking 大概率有价值;如果你自己随口就能给出答案,标准模式就够了。

六、成本与等待时间:你需要知道的数字

Extended Thinking 带来更好效果的代价是两方面的:更长的等待时间和更高的 Token 消耗。

等待时间

思考阶段的时间取决于 budget_tokens 的设置和任务复杂度:

  • budget_tokens 在 1,000–5,000:通常增加 5–15 秒等待时间
  • budget_tokens 在 5,000–15,000:通常增加 15–45 秒等待时间
  • budget_tokens 在 15,000 以上:可能需要 1–3 分钟或更长

在需要实时响应的场景(如聊天界面)中,这个等待时间是明显的用户体验代价,需要在设计上做相应处理(如显示”Claude 正在深度思考中”的进度提示)。

Token 消耗

思考过程产生的 Token 计入输入 Token 消费,会显著增加每次请求的成本。思考 Token 的定价通常与输出 Token 相似,具体以 Anthropic 官方定价为准。

对于 claude.ai 网页端的订阅用户,Extended Thinking 的使用会计入你的每日使用配额,单次启用 Extended Thinking 比标准回答消耗更多配额。

成本是否值得的判断逻辑

对于高价值的单次任务(如一份将影响重大决策的分析报告),额外的成本和等待时间通常是合理的投入。对于需要高频调用的批量任务或实时响应场景,应该评估是否真的需要 Extended Thinking,还是标准模式已经满足质量要求。

七、在 API 中处理思考块:开发者注意事项

在通过 API 使用 Extended Thinking 时,有几个技术细节需要注意:

思考块不能直接修改

在多轮对话中,如果你需要将带有思考块的回复加入对话历史,思考块的内容必须原样传回,不能修改。Anthropic 有严格的规定:思考块的内容在传回时必须与原始内容完全一致,任何修改都会导致 API 报错。

import anthropic

client = anthropic.Anthropic()

# 第一轮对话,开启 Extended Thinking
response1 = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 8000},
    messages=[{"role": "user", "content": "请分析这个算法问题:[问题描述]"}]
)

# 构建多轮对话历史时,思考块必须原样包含
conversation_history = [
    {"role": "user", "content": "请分析这个算法问题:[问题描述]"},
    {"role": "assistant", "content": response1.content}  # 包含思考块和文字块
]

# 继续对话
response2 = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 8000},
    messages=conversation_history + [
        {"role": "user", "content": "基于你的分析,能给出完整的代码实现吗?"}
    ]
)

流式输出与 Extended Thinking 的配合

对于需要较长等待时间的 Extended Thinking 请求,强烈建议使用流式输出,让用户能够看到思考过程的逐步展示,而不是等待所有内容生成完毕后才显示:

with client.messages.stream(
    model="claude-sonnet-4-6",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "你的问题"}]
) as stream:
    for event in stream:
        # 处理思考过程的流式输出
        if hasattr(event, 'type'):
            if event.type == 'content_block_start':
                if hasattr(event.content_block, 'type'):
                    if event.content_block.type == 'thinking':
                        print("\n[开始思考...]", flush=True)
                    elif event.content_block.type == 'text':
                        print("\n[最终回答]", flush=True)
            elif event.type == 'content_block_delta':
                if hasattr(event.delta, 'thinking'):
                    print(event.delta.thinking, end='', flush=True)
                elif hasattr(event.delta, 'text'):
                    print(event.delta.text, end='', flush=True)

Extended Thinking 与 Prompt Caching 的兼容性

Extended Thinking 和 Prompt Caching 可以同时使用。对于需要对同一份长文档多次进行深度分析的场景,将文档内容标记为缓存,同时开启 Extended Thinking,可以在保持思考深度的同时降低重复输入内容的 Token 成本。

八、用一个实验验证它对你是否值得

不同任务类型和不同用户对 Extended Thinking 的价值感知差异很大。在决定是否在你的工作流中引入它之前,最有价值的事情是做一个小规模的对比实验:

  1. 选取你最关心质量的 3–5 个典型任务。用你实际工作中会遇到的真实问题,而不是刻意构造的测试题。
  2. 对每个任务,先用标准模式回答,再用 Extended Thinking 回答,保持提示词完全相同。
  3. 不看模型标签的情况下,盲测判断两个回答的质量差距。如果你不能区分哪个更好,说明这类任务不需要 Extended Thinking。
  4. 统计在多少比例的任务上有可感知的质量提升。如果超过 50% 的任务有明显差距,且这些任务在你的工作中占重要比例,引入 Extended Thinking 是合理的。

这个实验不需要复杂的设置,30 分钟就能完成,能让你对 Extended Thinking 的实际价值有比任何理论分析都更准确的认知。

总结

Extended Thinking 是一个针对特定场景的专业工具,而不是对 Claude 标准模式的全面升级。它在需要深度逻辑推导、多步骤分析和复杂决策支持的任务上有真实的质量提升,但在写作、翻译、日常问答等不以推理深度为瓶颈的任务上,额外的等待时间和成本换不来可感知的收益。

判断它是否值得的核心标准只有一个:你的任务的质量瓶颈,是不是在推理深度上? 如果是,Extended Thinking 值得;如果不是,标准模式已经足够。

更多关于 Claude Extended Thinking 的 API 文档、参数说明和最新功能更新,欢迎访问 Claude Ai中文官网 查阅持续更新的中文开发者文档。

让模型花更多时间思考,不等于能解决所有问题——就像让一个人多想几分钟,也无法弥补他本来就不知道的知识。Extended Thinking 的价值在于深化已有能力,而不是创造新能力。