每当一个新的旗舰模型发布,最先泛滥的往往不是事实,而是猜测:参数量多少、上下文多长、跑分碾压谁、定价几何。GPT-5.5 已经正式发布,本文要做的,是把已经核实、有官方依据的部分(发布节奏、上下文与输出、定价、产品侧变化、能力强项)讲清楚,而对那些仍未公开的硬指标——具体跑分、训练细节、参数量——保持克制,统一以官方为准。如果你想要一个不被营销和传言污染的认知框架,请继续。

发布节奏:API 与 ChatGPT 双轨同步推进

GPT-5.5 于 2026-04-24 进入 API,同时提供 gpt-5.5gpt-5.5-pro 两个型号。在产品侧,4 月 23-24 日起陆续向 ChatGPT 的 Plus、Pro、Business、Enterprise 各档用户推送。

值得单独一提的是,OpenAI 同时推出了 GPT-5.5 Instant,并把它设为 ChatGPT 新的默认模型。这意味着绝大多数普通用户在不做任何手动切换的情况下,打开 ChatGPT 就已经在使用这一代的能力——默认模型的更替,往往比榜单分数更能决定海量用户的真实体感。

这条「API 型号 + 产品默认模型」的双轨形态,是 OpenAI 区别于纯研究机构的结构性特征:一端面向开发者按型号集成,一端面向终端用户即开即用。两条轨道在本次发布里几乎同步落地。

上下文与输出:百万级窗口成为常态

GPT-5.5 的上下文窗口约为 1,050,000 token,最大输出为 128,000 token

百万级的输入窗口意味着,整本技术手册、超长代码库片段、成批的长文档可以一次性放进上下文,而不必再依赖繁琐的分块与检索拼接;12.8 万的输出上限,则让一次性生成长篇报告、大段重构代码、结构化表格成为可能。对需要处理长材料、产出长结果的工作流来说,这两个数字直接决定了「能不能一口气做完」。

需要提醒的是:超大的窗口在工程上并非「免费」,它与下面要谈的计费规则直接挂钩——长上下文会触发不同的计价倍率,必须纳入成本估算。

定价:旗舰款翻倍,Pro 款持平

GPT-5.5 这一代的定价(每百万 token)如下:

型号 输入 输出
gpt-5.5 $5 $30
gpt-5.5-pro $30 $180

对比上一代 GPT-5.4,标准款 gpt-5.5($5 / $30)相对 5.4 的 $2.50 / $15 整整翻了一倍;而 gpt-5.5-pro($30 / $180)则与 5.4 Pro 持平。换句话说,这一代把能力提升的成本主要加在了标准款上,Pro 款维持原价。

此外还有一条容易被忽略、却对长上下文场景影响巨大的规则:对单次会话中超过 272K 输入 token 的部分,输入按 2 倍、输出按 1.5 倍计费,并且这一规则在 standard、batch、flex 各种调用模式下均适用。也就是说,前面提到的百万级窗口虽然能用,但一旦真的喂进超长上下文,单位成本会显著上浮——这正是「窗口大」与「便宜用」之间需要权衡的地方。

能力定位:从「会答」到「会做」的智能体

OpenAI 把 GPT-5.5 定位为其**目前最聪明、最「会意图」**的模型——不只是给出正确答案,更能准确领会用户想要达成什么,并跨工具持续地把长任务做完。官方点名的强项集中在几个方向:

  • Agentic coding:在编码与调试上的能力提升明显,能在真实的工程任务中持续推进。
  • Computer use:操作软件、跨界面完成操作类任务。
  • 联网研究:自主检索、整合外部信息。
  • 数据分析与文档生成:做数据分析、生成文档与表格。

把这些串起来看,GPT-5.5 的核心叙事是「跨工具持续完成长任务」——它在 agentic coding、computer use、知识工作以及早期科研场景上的提升尤为突出。这也呼应了过去两年行业从「更大的预训练模型」转向「会思考、会动手的智能体」的共识:评价重心从单轮问答的正确率,转向多步骤、长链路任务的完成度。

放进 2026 头部模型的坐标系里看

把 GPT-5.5 单独看容易失真,放进同期头部模型的坐标系里,它的相对定位才清楚。两个有官方依据的参照点:

  • Claude Fable 5(Anthropic 最强):1M 上下文 / 128K 输出,定价 $10 / $50 每百万 token。与 GPT-5.5 相比,上下文都到 ~1M、输出都是 128K,差异更多在机制与计费:Fable 5 思考始终开启、用 effort 档位(low→max)调深度,思维链受保护(原始推理不返回、只给摘要),并采用新分词器——相同内容 token 约多 30%,这会拉近它与 GPT-5.5 名义单价上的差距。长程 agent 与编码(Claude Code)是其主战场,恰好与 GPT-5.5 的 agentic coding 强项正面相邻。
  • DeepSeek V4(开放权重):MoE 架构,原生 1M 上下文,可自托管。它把性价比与本地化作为卖点,成本结构与前两者的闭源 API 完全不同,是另一条技术路线的选项。

三者都站在 ~1M 上下文这一代,单纯比「窗口多大」或「单价多少」已不足以决定高下——真实差异落在思考机制、token 与计费如何换算、以及生态与部署形态上。

哪些仍应「以官方为准」

把事实讲清楚的同时,也要把边界划清楚。截至本文,未被官方列出的具体跑分(benchmark)、训练细节与参数量,本文一律不臆测,以官方发布为准——这些恰恰是最容易被臆造、也最容易被误传的硬指标。

还要补一句行业背景:这个领域的迭代速度极快。GPT-5.5 在 4 月发布,而到 2026 年 6 月,已经有了 GPT-5.6 的后续消息。任何一篇梳理文章都有其时效性,读者在做决策时仍应回到官方文档确认最新状态。

给读者的实操建议

如果你是开发者或技术决策者,面对 GPT-5.5 这一代,理性的姿态是:

第一,区分型号与场景——gpt-5.5gpt-5.5-pro 定价相差悬殊,按任务难度选型,别为不需要的能力付双倍价。第二,把长上下文计费规则纳入成本表——百万窗口好用,但越过 272K 后的倍率必须算进去。第三,关注默认模型的变更——ChatGPT 默认已切到 GPT-5.5 Instant,存量 prompt 与流程升级前应做差异回归。第四,对未公开的硬指标保持悬置,用你自己的评测集,而非传言去做架构决策。

一句话总结

GPT-5.5 于 2026-04-24 进入 API(gpt-5.5 / gpt-5.5-pro),同期在 ChatGPT 推送并以 GPT-5.5 Instant 作为新默认模型;上下文约 105 万 token、最大输出 12.8 万 token;标准款定价相对 5.4 翻倍、Pro 款持平,超长上下文另有倍率计费;它被定位为 OpenAI 最聪明、最擅长跨工具完成长任务的智能体,而未公开的跑分与训练细节仍以官方为准。