DeepSeek 系列从 V2、V3 到 R1,一路把"开放权重 + 高性价比"做成了一条清晰的技术路线。2026 年 4 月 24 日,DeepSeek V4 正式发布并同步上线 API,以开放权重(open-weight)的 MoE 模型形态登场。本文不再停留在传闻层面,而是基于已发布的事实,梳理这一代模型在参数规模、上下文长度、注意力机制与推理效率上的关键设计。需要说明的是:涉及具体跑分、API 单价等细节,目前多为第三方整理,文中会明确标注"以官方为准"。

双版本:一大一小,覆盖不同场景

V4 这次一口气给出了两个版本,定位差异非常清晰:

  • V4-Pro:总参数 1.6 万亿(1.6T),每个 token 激活约 49B。这是冲性能上限的旗舰版,把"超大容量、稀疏激活"的 MoE 叙事推到了新的量级。
  • V4-Flash:总参数 284B,每个 token 激活约 13B。这是更轻、更省、更适合规模化服务与对延迟敏感场景的版本。

两个版本共享同一套架构思路,只是在总参数与激活规模上做了不同档位的取舍。对使用方而言,这意味着可以按预算和质量需求二选一:要极致能力上 Pro,要性价比和吞吐用 Flash。值得注意的是,即便是旗舰的 Pro,单 token 激活也只有 49B——相对 1.6T 的总盘子,激活比例不到 3.1%,这正是 MoE "很大很懂,但每次只用一小部分"的直接体现。

原生百万上下文

V4 原生支持 100 万(1M)token 的上下文窗口。这不是靠外推或滑窗硬撑出来的长度,而是从架构与训练层面原生支持的能力。1M 上下文意味着可以一次性塞进整本书、整个代码仓库的大部分文件,或者超长的多轮对话历史,对检索增强、代码理解、长文档分析等场景都是实打实的能力跃升。

但长上下文真正的难点从来不在"能不能放下",而在"放下之后还划不划算"——推理时 KV Cache 与注意力计算都会随上下文长度膨胀。V4 在这件事上做的工程,恰恰是它最值得说的地方。

混合注意力:为长上下文 prefill 而生

V4 采用了一套**混合注意力(hybrid attention)**设计,核心是两类机制的组合:

  • Compressed Sparse Attention(压缩稀疏注意力):通过稀疏化与压缩,减少长序列下注意力的计算与缓存开销。
  • Heavily Compressed Attention head(重度压缩注意力头):这是 V4 新引入的部件,专门面向长上下文的 prefill 阶段做优化。

prefill 是长上下文推理里最容易被忽视、却又最吃成本的环节——在真正开始逐 token 生成之前,模型要先把整段超长输入"读"一遍并建立 KV 表示。上下文越长,这一步的算力和显存压力越大。V4 用重度压缩的注意力头来摊薄这部分开销,本质上是把"读一百万 token"这件事做便宜,让百万级上下文从"能用"走向"实用"。

效率:把单 token 成本压到新低

V4 最硬核的数字落在效率上。官方给出的对比是:在 1M 上下文条件下,V4-Pro 相比上一代 DeepSeek-V3.2——

  • 单 token 推理所需的 FLOPs 仅约 27%
  • KV Cache 占用仅约 10%

这两个数字放在一起看分量很重。FLOPs 降到约四分之一,意味着同样的算力能服务更多请求、或同样的请求花更少的钱;KV Cache 压到约十分之一,则直接决定了一张显卡在长上下文下能扛多少并发——显存往往才是长上下文服务真正的瓶颈。换句话说,V4 不是单纯把上下文窗口拉长,而是把"长上下文 + 低成本"这对看似矛盾的目标同时往前推了一大步。混合注意力与 MoE 稀疏激活双管齐下:一个压注意力与显存,一个压前馈计算,两头一起省。

关于跑分、价格与许可证

需要保持克制的几点:

  • 具体跑分(例如 SWE-bench 等基准上的分数)目前多为第三方报道,以官方为准,不宜直接当作确凿结论引用。
  • API 单价同样以第三方整理为主,实际计费请参考官方定价页面。
  • 许可证方面,V4 以开放权重发布,但开放的具体边界(商用条款、再分发限制等)请以官方 LICENSE 文件为准,不要凭"开源"二字想当然。

在国产模型格局中的位置

把视野放大,国产大模型这两年形成了几条并行的技术共识:MoE 稀疏化、长上下文、推理能力强化,以及对训练/推理成本的极致压榨。通义千问 Qwen 以全尺寸开源矩阵和生态广度见长,智谱 GLM、Kimi、豆包等各有产品与场景侧重。DeepSeek V4 在其中的辨识度,主要来自它把"算法效率"和"开放彻底性"同时拉满——1.6T 的容量、1M 的上下文、却只有约 27% FLOPs 与 10% KV Cache 的成本,这种取向在同代模型里相当鲜明。

需要保持客观的是:各家在不同任务上互有胜负,没有谁能在所有维度上碾压,具体能力对比应以公开评测和官方数据为准,避免被单一榜单带节奏。

小结

DeepSeek V4 不是一次概念上的颠覆,而是把 MoE 稀疏基座、原生百万上下文与混合注意力工程三条线收敛到一起的一次扎实落地:用 V4-Pro(1.6T/49B 激活)和 V4-Flash(284B/13B 激活)覆盖不同档位,用 Compressed Sparse Attention 加新的重度压缩注意力头把长上下文 prefill 做便宜,最终在 1M 上下文下把单 token 的 FLOPs 与 KV Cache 分别压到约 27% 与 10%。它真正的价值,在于继续把"强能力"和"低成本、可开放"这件看似矛盾的事推得更远——而具体跑分与价格,仍请以官方发布为准。