DFlash: Block Diffusion for Flash Speculative Decoding

Meta Data

发表时间 2026-02-12
作者：Jian Chen, Yesheng Liang, Zhijian Liu etc.
论文链接：https://arxiv.org/pdf/2602.06036.pdf
项目链接：https://github.com/z-lab/dflash

摘要

自回归大语言模型（LLMs）表现出色，但需要固有的顺序解码，导致推理延迟高和 GPU 利用率差。投机解码（Speculative decoding）通过使用一个快速草稿模型来缓解这一瓶颈，该模型的输出由目标 LLM 并行验证。然而，现有方法仍然依赖于自回归草稿（autoregressive drafting），这仍然是顺序的，并限制了实际的速度提升。扩散 LLM 通过实现并行生成提供了一种有前途的替代方案，但目前的扩散模型通常不如自回归模型。在本文中，我们介绍了 DFlash，一个投机解码框架，它采用轻量级的块扩散模型进行并行草稿。我们表明，投机解码为扩散模型提供了一个自然有效的设置。通过在一次前向传递中生成草稿 token，DFlash 实现了高效的草稿，并通过将草稿模型条件化在从目标模型提取的上下文特征上，它以更高的接受率实现了高质量的草稿。实验表明，DFlash 在一系列模型和任务上实现了超过 $6\times$ 的无损加速，与最先进的投机解码方法 EAGLE-3 相比，速度提高了 $2.5\times$ 。

Introdution

大语言模型 (LLMs) 已经实现了广泛的强大应用，包括对话式代理 (Yang et al., 2025; Guo et al., 2025) 和自动化编程工具。尽管取得了成功，LLM 推理仍然以逐个 token 的顺序生成过程为主导，其中每个输出都依赖于完整的先前上下文。这种固有的串行性造成了主要的性能瓶颈：推理速度慢、内存受限，并且未能充分利用现代 GPU。随着最近出现的长思想链（CoT）推理模型（OpenAI 等人，2024；Guo 等人，2025），这个瓶颈变得越来越严重，因为延长的推理时间现在主导了生成过程。
推测性解码 (Leviathan 等人，2023; Li 等人，2025c, 2024, b; Cai 等人，2024) 已成为解决这一瓶颈的主要解决方案。该范例采用轻量级草稿模型来推测未来 Token 的序列，然后由大型目标模型并行验证。虽然这种方法实现了无损加速并已广泛集成到生产框架中，但 EAGLE-3 (Li 等人，2025b) 等最先进的方法仍然依赖于自回归绘图。这种串行绘图过程不仅本质上效率低下，而且容易受到错误累积的影响，这实际上将可实现的加速限制在大约 $2-3\times$ 。
最近，扩散 LLM (dLLM) （Nie 等人，2025）通过实现并行文本生成和双向上下文建模，为自回归 LLM 提供了一种有前景的替代方案。块扩散模型（Arriola 等人，2025；Cheng 等人，2025；Wu 等人，2025）可以同时对屏蔽 Token 块进行去噪。然而，当前的开源 dLLM 在生成质量方面通常不如自回归同行。此外，保持可接受的输出质量通常需要大量的去噪步骤，这会显着降低其原始推理速度（Qian 等人，2026）。
这种情况揭示了一个关键的权衡：自回归模型提供卓越的性能，但会受到顺序延迟的影响，而扩散模型允许快速、并行生成，但通常以准确性为代价。一个自然的研究问题如下：我们能否结合两种范式的优点，同时减轻各自的缺点？一个引人注目的解决方案在于利用扩散模型进行高速、并行绘图，同时依靠高质量的自回归模型进行验证，以确保最终输出保持无损。
然而，利用扩散模型进行草稿生成并非易事，现有方法要么不切实际，要么只能提供有限的速度提升。 DiffuSpec (Li et al., 2025a) 和 SpecDiff-2 (Sandler et al., 2025) 等方法使用了大规模（例如.，7B 参数）的草稿模型。这种巨大的内存占用对于实际部署而言往往代价高昂。此外，尽管这些大型草稿模型能够生成质量相对较高且接受长度较长的草稿 token，但高草稿延迟将其实际速度提升限制在适度的 $3-4\times$ 。相比之下，PARD (An et al., 2025) 训练小型自回归模型来模仿扩散风格的并行生成，然后为目标 LLM 执行推测解码。然而，由此产生的小型模型缺乏目标 LLM 的建模能力，导致接受长度有限，速度提升上限约为 $3\times$ 。
真的 “没有免费的午餐” 吗？我们能否构建一个既轻量又高精度的扩散草稿模型？
在本文中，我们提出了 DFlash，这是一个推测解码框架，它使用轻量级的块扩散模型来实现快速且高质量的草稿生成。我们的核心见解很简单：目标模型最了解。正如 Samragh et al. (2025) 所观察到的，大型自回归 LLM 的隐藏特征隐含了关于多个未来 token 的信息。 DFlash 利用这些隐藏特征作为上下文，条件化草稿模型以并行预测未来的 token 块。实际上，草稿模型变成了一个扩散适配器，它有效地利用了大型目标模型所建模的深度上下文特征。 DFlash 没有要求一个微小的草稿模型从头开始推理，而是将目标模型的推理能力与小型扩散草稿模型的并行生成速度相结合。
我们在广泛的模型和基准测试中评估 DFlash，并使用 SGLang (Zheng et al., 2024) 在实际部署场景下展示了它的实际效益。正如 Figure 1 所示，DFlash 在 Qwen3-8B (Yang et al., 2025) 上实现了高达 $6.1\times$ 的速度提升，并且在大多数基准测试上比最先进的 EAGLE-3 快近 $2.5\times$ 。我们相信 DFlash 在加速大语言模型推理和普及高性能人工智能方面取得了重大进展。

图1：DFlash、EAGLE-3 与使用 Transformers 后端的 Qwen3-8B （Yang 等人，2025）上的自回归解码之间的加速比较。总体而言，DFlash 的加速比 EAGLE-3 高出 2.5 倍以上。

准备工作

本节形式化了推测解码的加速机制，并阐明了自回归和基于扩散的起草之间的效率权衡。我们的分析强调了为什么扩散起草者具有独特的优势，可以实现低起草延迟和高接受率。

推测解码加速

推测性解码使用较小的草稿模型 $\mathcal {M}_d$ 加速目标模型 $\mathcal {M}_t$ 的推理。在每个解码周期中，草稿模型都会提出 $\gamma$ 标记，这些标记由目标模型并行验证。
在 Sadhukhan 等人 (2025) 之后，每个 Token 的平均延迟为

L = \frac{T_{\text{draft}} + T_{\text{verify}}}{\tau}

其中 $T_{\text {draft}}$ 是生成草稿 Token 所花费的时间， $T_{\text {verify}}$ 是验证成本， $\tau\in [1,\gamma+1]$ 是每个周期接受的 Token 的预期数量，包括目标模型产生的奖励 Token。令 $L_{\text {target}}$ 表示 $\mathcal {M}t$ 的每个 Token 的自回归延迟；最终的加速比是
$\eta = \frac {L{\text{target}}}{L}$
该表达式使权衡变得明确：通过增加预期接受长度 $\tau$ 或减少起草开销 $T_{\text {draft}}$ 来提高速度。