DeepSeek DSpark 上线:推理速度涨 85%,但厉害的不是这个
Site Owner
Published on 2026-06-29
DeepSeek 6/27 联合北大发布 DSpark 推测解码框架,V4 推理速度涨 60-85%。真正厉害的不是数字,是置信度调度把竞争维度从参数推到了系统调度。

DeepSeek DSpark 上线:推理速度涨 85%,但厉害的不是这个
DeepSeek 6 月 27 日放了一个新东西。
梁文锋署名,联合北大,论文标题《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》,同步开源推测解码框架 DSpark 和训练工具链 DeepSpec。落地到 V4-Pro / V4-Flash 的线上服务,替换了上一代 MTP-1 方案。
三家媒体实测数据对齐:DeepSeek-V4-Flash 单用户生成速度提升 60%-85%,V4-Pro 提升 57%-78%。在系统总吞吐不变、严守交互延迟的前提下达成(来源:智东西、爱范儿、Datawhale 三方交叉验证,2026-06-27)。
但数字不是重点。
重点是 DSpark 的两件套——半自回归草稿 + 置信度调度验证——把推测解码从"草稿写得准不准"这件事,推到了"哪些 token 值得验证"这件事上。

这事改变的不是 DeepSeek 一家的速度曲线,是整个大模型下半场的竞争维度。
一、先把「挤牙膏」这件事说清楚
主流大模型是自回归的。
每生成一个 token,都要以前面所有 token 为条件跑一次前向计算。输出越长,延迟越高,GPU 越空。
这就是你打字给大模型,它「一个字一个字蹦出来」的根源。不是它故意装高冷,是计算结构决定了它只能这么干。
推测解码(Speculative Decoding)的思路,是找捷径:
让一个小模型先写一串候选 token,再让目标大模型一次性验证。验证是并行的。通过的 token 全收,第一个被拒的位置后面整串作废,目标模型自己补一个。整个过程数学上严格保证与目标模型逐字生成的结果一致——无损加速,质量不打折。
听着像秘书先拟稿,老板过一遍,对的留下,错的地方老板自己改。
这条路在 2024 年开始被各家盯上。Eagle3(自回归草稿器)和 DFlash(并行草稿器)是两个主流派别。
但 DeepSeek 在论文里点出了一句同行不爱听的话:现有的推测解码方案,已经撞到了天花板。
天花板在两个方向:
第一,自回归草稿器为了压延迟只能做浅网络。 浅了以后第一个 token 的接受率就低,而推测解码是前缀验证,第一个 token 一旦被拒,后面整串作废。论文实测数字:数学任务 0.81,对话任务 0.53。
第二,并行草稿器为了快能做深网络,但 token 之间缺少依赖关系。 上下文同时支持 "of course" 和 "no problem" 两种续写,并行独立预测就可能拼出 "of problem" 或 "no course"——论文里把它叫做 multi-modal collision(多模态碰撞),结果是越靠后的 token 接受率衰减越快,论文叫 suffix decay。
这就是过去两年推测解码卡住的地方:快和准二选一。 要么自回归草稿写得准但写得慢,要么并行草稿写得快但后段崩。
DSpark 说,我要两个都要。
二、DSpark 的两件外套
半自回归:给并行草稿补一个"前一个 token"的眼睛
DSpark 的草稿器结构是「并行骨干 + 轻量串行模块」。
并行骨干负责一次前向计算铺开整串候选,这部分和传统并行草稿一样快。

