DeepSeek DSpark 上线：推理速度涨 85%，但厉害的不是这个

Site Owner

Published on 2026-06-29

DeepSeek 6/27 联合北大发布 DSpark 推测解码框架，V4 推理速度涨 60-85%。真正厉害的不是数字，是置信度调度把竞争维度从参数推到了系统调度。

DeepSeek DSpark 上线：推理速度涨 85%，但厉害的不是这个

DeepSeek 6 月 27 日放了一个新东西。

梁文锋署名，联合北大，论文标题《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》，同步开源推测解码框架 DSpark 和训练工具链 DeepSpec。落地到 V4-Pro / V4-Flash 的线上服务，替换了上一代 MTP-1 方案。

三家媒体实测数据对齐：DeepSeek-V4-Flash 单用户生成速度提升 60%-85%，V4-Pro 提升 57%-78%。在系统总吞吐不变、严守交互延迟的前提下达成（来源：智东西、爱范儿、Datawhale 三方交叉验证，2026-06-27）。

但数字不是重点。

重点是 DSpark 的两件套——半自回归草稿 + 置信度调度验证——把推测解码从"草稿写得准不准"这件事，推到了"哪些 token 值得验证"这件事上。

DSpark 整体架构：并行草稿器 + Markov head + 置信度调度器 + 目标模型验证

这事改变的不是 DeepSeek 一家的速度曲线，是整个大模型下半场的竞争维度。

一、先把「挤牙膏」这件事说清楚

主流大模型是自回归的。

每生成一个 token，都要以前面所有 token 为条件跑一次前向计算。输出越长，延迟越高，GPU 越空。

这就是你打字给大模型，它「一个字一个字蹦出来」的根源。不是它故意装高冷，是计算结构决定了它只能这么干。

推测解码（Speculative Decoding）的思路，是找捷径：

让一个小模型先写一串候选 token，再让目标大模型一次性验证。验证是并行的。通过的 token 全收，第一个被拒的位置后面整串作废，目标模型自己补一个。整个过程数学上严格保证与目标模型逐字生成的结果一致——无损加速，质量不打折。

听着像秘书先拟稿，老板过一遍，对的留下，错的地方老板自己改。

这条路在 2024 年开始被各家盯上。Eagle3（自回归草稿器）和 DFlash（并行草稿器）是两个主流派别。

但 DeepSeek 在论文里点出了一句同行不爱听的话：现有的推测解码方案，已经撞到了天花板。

天花板在两个方向：

第一，自回归草稿器为了压延迟只能做浅网络。 浅了以后第一个 token 的接受率就低，而推测解码是前缀验证，第一个 token 一旦被拒，后面整串作废。论文实测数字：数学任务 0.81，对话任务 0.53。

第二，并行草稿器为了快能做深网络，但 token 之间缺少依赖关系。 上下文同时支持 "of course" 和 "no problem" 两种续写，并行独立预测就可能拼出 "of problem" 或 "no course"——论文里把它叫做 multi-modal collision（多模态碰撞），结果是越靠后的 token 接受率衰减越快，论文叫 suffix decay。

这就是过去两年推测解码卡住的地方：快和准二选一。 要么自回归草稿写得准但写得慢，要么并行草稿写得快但后段崩。

DSpark 说，我要两个都要。

二、DSpark 的两件外套

半自回归：给并行草稿补一个"前一个 token"的眼睛

DSpark 的草稿器结构是「并行骨干 + 轻量串行模块」。

并行骨干负责一次前向计算铺开整串候选，这部分和传统并行草稿一样快。

#AI工程

DeepSeek DSpark 上线：推理速度涨 85%，但厉害的不是这个

DeepSeek DSpark 上线：推理速度涨 85%，但厉害的不是这个

一、先把「挤牙膏」这件事说清楚

二、DSpark 的两件外套

半自回归：给并行草稿补一个"前一个 token"的眼睛

置信度调度：哪些 token 值得交给大模型验证？

三、反直觉的发现：并行比自回归更准

四、为什么 DeepSpec 比 DSpark 本身更重要

五、速度涨 85% 不重要，工程范式变了才重要