2026 年怎么给业务选大模型

"我们该用哪个大模型？"这个问题在 2026 年比两年前更难回答，也更容易回答。难，是因为可选项更多、能力维度更复杂；易，是因为如果你想清楚了业务到底要什么，淘汰法会非常快地把范围收窄。这篇文章不打算给一份排行榜——跑分变化太快、各家口径不一，靠榜单选型是最不稳的做法——而是想给一套按业务特征做决策的框架。

第一步：先把任务分档，而不是先看模型

最常见的选型错误，是一上来就比"谁最强"，然后给所有场景都套上最强最贵的模型。正确的起点是把你的任务按难度和形态分档：

轻任务：分类、抽取、改写、短问答、固定格式的结构化输出。这类任务对推理深度要求低，对延迟和成本敏感。
中任务：多轮对话、检索增强问答（RAG）、中等复杂度的代码生成、内容创作。需要一定理解力，但不需要长时间自治。
重任务：长程 Agent、复杂代码迁移、深度研究、跨多步的规划与执行。需要强推理、长上下文、以及在长链路里保持稳定。

分档之所以重要，是因为模型能力和价格基本是按档位拉开的。给轻任务上旗舰模型，是在为用不到的能力付费；给重任务上小模型，则是在为省下的那点钱赔上整条链路的可靠性。先分档，再选型，能省掉一大半纠结。

第二步：用几个硬约束做淘汰

确定了任务档位，接下来用几条硬指标快速筛掉不合适的选项。

上下文窗口与输出长度。 如果你的场景要把整个代码库、长文档、或几十轮工具交互喂进去，那么上下文窗口就是一票否决项。今天旗舰级模型普遍提供很大的窗口——比如 Anthropic 目前最强的广泛发布模型 Claude Fable 5 提供 100 万 token 上下文、最多 128K 输出，足以覆盖大多数长上下文需求。但要注意，能装进去和算得起是两回事（见下文成本）。

延迟容忍度。 这是被低估的一条。强推理模型为了"想清楚"，单次请求可能跑很久——困难任务跑上数分钟是正常的。对一个要求秒级响应的客服前端来说，这种模型即便再聪明也不合适；而对一个"晚上提交、早上看结果"的异步任务，长耗时完全可以接受。先问自己：这个场景能不能容忍长时间、能不能做成流式或异步？答案直接决定了你该往哪一档看。

成本结构。 不要只看"每百万 token 多少钱"这一个数字。以 Claude Fable 5 为例，它是输入 $10、输出 $50 每百万 token 的偏高一档；更关键的是它换了新分词器，同样的内容 token 数比上一代大约多 30%。这意味着两件事：一是单价高的模型在重任务上是合理投入，但铺到高频轻任务上账单会很难看；二是绝不能把在别的模型上测出的 token 量直接拿来估成本，必须用目标模型重新基线化。这里只用 Claude Fable 5 举例说明"单价×token 数"的乘法陷阱；其他厂商模型的具体价格请以各家官方为准，不同模型之间的横向比价很容易因为分词器和计费口径不同而失真。

部署与合规。 数据能不能出域、要不要私有化部署、有没有数据保留方面的硬要求，这些会直接影响开源/闭源的选择。比如有些强模型对数据保留有最低期限要求，零数据保留（ZDR）的组织可能根本无法调用——这类约束属于"先问清楚再谈能力"的范畴。

第三步：开源还是闭源，按"可控性 vs 顶配能力"权衡

这是选型里最常被情绪化讨论的一题，但拆开看其实很务实。

选开源的理由通常是：要私有部署、要对数据全程可控、要深度定制、或者要把成本压到极致。在大量中等难度任务上，开源模型今天已经够用，能力差距在收敛。

选闭源旗舰的理由通常是：你的核心场景落在"最难那一档"——长程 Agent、复杂推理、需要长链路稳定性。这一档闭源旗舰仍然领先，而且它把推理深度、安全机制、长程稳定性这些难做的部分一次性帮你做好了。

一个实用的折中是混合编排：用便宜的小模型/开源模型处理高频轻任务和子任务，只在需要重推理时回退到旗舰模型。很多成熟系统就是这么做的——主循环跑一个强模型，把可并行的、独立的探索性子任务派给更便宜的模型。这样既拿到了顶配能力，又没让账单失控。

至于具体哪个国产模型、哪个海外模型更适合你，这取决于太多会快速变化的因素（价格、可用区、合规、生态），这里不做断言，建议直接以官方信息和你自己的小规模评测为准。

第四步：把"软指标"也纳入评估

选型最后容易漏掉的，是那些不在跑分表里、但决定生产可用性的特征：

拒答行为。 强模型往往配更强的安全约束。比如 Claude Fable 5 会用安全分类器，对某些请求可能直接返回 refusal。接入时要把"被拒"当成一种正常返回来处理，而不是当成程序崩溃——尤其是做安全工具、生命科学这类容易误触发的相邻业务时，要预留好回退路径。
推理是否始终开启。 有些旗舰模型的"思考"是默认常开、不可关闭的（Claude Fable 5 即如此，只能调 effort 档位）。这影响你的延迟和成本模型，选型时要把它算进去。
长程任务里的诚实度与自我验证。 一个会编造进度的模型，在长链路里是灾难。如果你要做 Agent，务必在真实任务上验证它会不会把"没做完"如实报出来。

一句话决策路径

把上面的步骤压缩成一条可操作的路径：先按难度给任务分档 → 用上下文、延迟、成本、合规四个硬约束淘汰 → 在剩下的选项里按"可控性 vs 顶配能力"决定开源还是闭源 → 用真实任务做一次小规模评测，重点看拒答、成本基线和长程诚实度。跑通这条路径，比盯着任何一张榜单都更可能选对——选型的本质从来不是选"最强的模型"，而是选"最匹配你这摊业务的模型"。