"我们该用哪个大模型?"这个问题在 2026 年比两年前更难回答,也更容易回答。难,是因为可选项更多、能力维度更复杂;易,是因为如果你想清楚了业务到底要什么,淘汰法会非常快地把范围收窄。这篇文章不打算给一份排行榜——跑分变化太快、各家口径不一,靠榜单选型是最不稳的做法——而是想给一套按业务特征做决策的框架。

第一步:先把任务分档,而不是先看模型

最常见的选型错误,是一上来就比"谁最强",然后给所有场景都套上最强最贵的模型。正确的起点是把你的任务按难度和形态分档:

  • 轻任务:分类、抽取、改写、短问答、固定格式的结构化输出。这类任务对推理深度要求低,对延迟和成本敏感。
  • 中任务:多轮对话、检索增强问答(RAG)、中等复杂度的代码生成、内容创作。需要一定理解力,但不需要长时间自治。
  • 重任务:长程 Agent、复杂代码迁移、深度研究、跨多步的规划与执行。需要强推理、长上下文、以及在长链路里保持稳定。

分档之所以重要,是因为模型能力和价格基本是按档位拉开的。给轻任务上旗舰模型,是在为用不到的能力付费;给重任务上小模型,则是在为省下的那点钱赔上整条链路的可靠性。先分档,再选型,能省掉一大半纠结。

第二步:用几个硬约束做淘汰

确定了任务档位,接下来用几条硬指标快速筛掉不合适的选项。

上下文窗口与输出长度。 如果你的场景要把整个代码库、长文档、或几十轮工具交互喂进去,那么上下文窗口就是一票否决项。今天旗舰级模型普遍提供很大的窗口——比如 Anthropic 目前最强的广泛发布模型 Claude Fable 5 提供 100 万 token 上下文、最多 128K 输出,足以覆盖大多数长上下文需求。但要注意,能装进去和算得起是两回事(见下文成本)。

延迟容忍度。 这是被低估的一条。强推理模型为了"想清楚",单次请求可能跑很久——困难任务跑上数分钟是正常的。对一个要求秒级响应的客服前端来说,这种模型即便再聪明也不合适;而对一个"晚上提交、早上看结果"的异步任务,长耗时完全可以接受。先问自己:这个场景能不能容忍长时间、能不能做成流式或异步?答案直接决定了你该往哪一档看。

成本结构。 不要只看"每百万 token 多少钱"这一个数字。以 Claude Fable 5 为例,它是输入 $10、输出 $50 每百万 token 的偏高一档;更关键的是它换了新分词器,同样的内容 token 数比上一代大约多 30%。这意味着两件事:一是单价高的模型在重任务上是合理投入,但铺到高频轻任务上账单会很难看;二是绝不能把在别的模型上测出的 token 量直接拿来估成本,必须用目标模型重新基线化。这里只用 Claude Fable 5 举例说明"单价×token 数"的乘法陷阱;其他厂商模型的具体价格请以各家官方为准,不同模型之间的横向比价很容易因为分词器和计费口径不同而失真。

部署与合规。 数据能不能出域、要不要私有化部署、有没有数据保留方面的硬要求,这些会直接影响开源/闭源的选择。比如有些强模型对数据保留有最低期限要求,零数据保留(ZDR)的组织可能根本无法调用——这类约束属于"先问清楚再谈能力"的范畴。

第三步:开源还是闭源,按"可控性 vs 顶配能力"权衡

这是选型里最常被情绪化讨论的一题,但拆开看其实很务实。

开源的理由通常是:要私有部署、要对数据全程可控、要深度定制、或者要把成本压到极致。在大量中等难度任务上,开源模型今天已经够用,能力差距在收敛。

闭源旗舰的理由通常是:你的核心场景落在"最难那一档"——长程 Agent、复杂推理、需要长链路稳定性。这一档闭源旗舰仍然领先,而且它把推理深度、安全机制、长程稳定性这些难做的部分一次性帮你做好了。

一个实用的折中是混合编排:用便宜的小模型/开源模型处理高频轻任务和子任务,只在需要重推理时回退到旗舰模型。很多成熟系统就是这么做的——主循环跑一个强模型,把可并行的、独立的探索性子任务派给更便宜的模型。这样既拿到了顶配能力,又没让账单失控。

至于具体哪个国产模型、哪个海外模型更适合你,这取决于太多会快速变化的因素(价格、可用区、合规、生态),这里不做断言,建议直接以官方信息和你自己的小规模评测为准。

第四步:把"软指标"也纳入评估

选型最后容易漏掉的,是那些不在跑分表里、但决定生产可用性的特征:

  • 拒答行为。 强模型往往配更强的安全约束。比如 Claude Fable 5 会用安全分类器,对某些请求可能直接返回 refusal。接入时要把"被拒"当成一种正常返回来处理,而不是当成程序崩溃——尤其是做安全工具、生命科学这类容易误触发的相邻业务时,要预留好回退路径。
  • 推理是否始终开启。 有些旗舰模型的"思考"是默认常开、不可关闭的(Claude Fable 5 即如此,只能调 effort 档位)。这影响你的延迟和成本模型,选型时要把它算进去。
  • 长程任务里的诚实度与自我验证。 一个会编造进度的模型,在长链路里是灾难。如果你要做 Agent,务必在真实任务上验证它会不会把"没做完"如实报出来。

一句话决策路径

把上面的步骤压缩成一条可操作的路径:先按难度给任务分档 → 用上下文、延迟、成本、合规四个硬约束淘汰 → 在剩下的选项里按"可控性 vs 顶配能力"决定开源还是闭源 → 用真实任务做一次小规模评测,重点看拒答、成本基线和长程诚实度。 跑通这条路径,比盯着任何一张榜单都更可能选对——选型的本质从来不是选"最强的模型",而是选"最匹配你这摊业务的模型"。