DFlash: Block Diffusion for Flash Speculative Decoding

绫波波 发布于 10 小时前 6 次阅读


Meta Data

摘要

自回归大语言模型(LLMs)表现出色,但需要固有的顺序解码,导致推理延迟高和 GPU 利用率差。投机解码(Speculative decoding)通过使用一个快速草稿模型来缓解这一瓶颈,该模型的输出由目标 LLM 并行验证。然而,现有方法仍然依赖于自回归草稿(autoregressive drafting),这仍然是顺序的,并限制了实际的速度提升。扩散 LLM 通过实现并行生成提供了一种有前途的替代方案,但目前的扩散模型通常不如自回归模型。在本文中,我们介绍了 DFlash,一个投机解码框架,它采用轻量级的块扩散模型进行并行草稿。我们表明,投机解码为扩散模型提供了一个自然有效的设置。通过在一次前向传递中生成草稿 token,DFlash 实现了高效的草稿,并通过将草稿模型条件化在从目标模型提取的上下文特征上,它以更高的接受率实现了高质量的草稿。实验表明,DFlash 在一系列模型和任务上实现了超过 6\times 的无损加速,与最先进的投机解码方法 EAGLE-3 相比,速度提高了 2.5\times

Introdution

大语言模型 (LLMs) 已经实现了广泛的强大应用,包括对话式代理 (Yang et al., 2025; Guo et al., 2025) 和自动化编程工具。尽管取得了成功,LLM 推理仍然以逐个 token 的顺序生成过程为主导,其中每个输出都依赖于完整的先前上下文。这种固有的串行性造成了主要的性能瓶颈:推理速度慢、内存受限,并且未能充分利用现代 GPU。随着最近出现的长思想链(CoT)推理模型(OpenAI 等人,2024;Guo 等人,2025),这个瓶颈变得越来越严重,因为延长的推理时间现在主导了生成过程。
推测性解码 (Leviathan 等人,2023; Li 等人,2025c, 2024, b; Cai 等人,2024) 已成为解决这一瓶颈的主要解决方案。该范例采用轻量级草稿模型来推测未来 Token 的序列,然后由大型目标模型并行验证。虽然这种方法实现了无损加速并已广泛集成到生产框架中,但 EAGLE-3 (Li 等人,2025b) 等最先进的方法仍然依赖于自回归绘图。这种串行绘图过程不仅本质上效率低下,而且容易受到错误累积的影响,这实际上将可实现的加速限制在大约 2-3\times
最近,扩散 LLM (dLLM) (Nie 等人,2025) 通过实现并行文本生成和双向上下文建模,为自回归 LLM 提供了一种有前景的替代方案。块扩散模型(Arriola 等人,2025;Cheng 等人,2025;Wu 等人,2025)可以同时对屏蔽 Token 块进行去噪。然而,当前的开源 dLLM 在生成质量方面通常不如自回归同行。此外,保持可接受的输出质量通常需要大量的去噪步骤,这会显着降低其原始推理速度(Qian 等人,2026)。
这种情况揭示了一个关键的权衡:自回归模型提供卓越的性能,但会受到顺序延迟的影响,而扩散模型允许快速、并行生成,但通常以准确性为代价。一个自然的研究问题如下: 我们能否结合两种范式的优点,同时减轻各自的缺点? 一个引人注目的解决方案在于利用扩散模型进行高速、并行绘图,同时依靠高质量的自回归模型进行验证,以确保最终输出保持无损。
然而,利用扩散模型进行草稿生成并非易事,现有方法要么不切实际,要么只能提供有限的速度提升。 DiffuSpec (Li et al., 2025a) 和 SpecDiff-2 (Sandler et al., 2025) 等方法使用了大规模(例如.,7B 参数)的草稿模型。 这种巨大的内存占用对于实际部署而言往往代价高昂。 此外,尽管这些大型草稿模型能够生成质量相对较高且接受长度较长的草稿 token,但高草稿延迟将其实际速度提升限制在适度的 3-4\times 。 相比之下,PARD (An et al., 2025) 训练小型自回归模型来模仿扩散风格的并行生成,然后为目标 LLM 执行推测解码。 然而,由此产生的小型模型缺乏目标 LLM 的建模能力,导致接受长度有限,速度提升上限约为 3\times
真的 “没有免费的午餐” 吗? 我们能否构建一个既轻量又高精度的扩散草稿模型?
在本文中,我们提出了 DFlash,这是一个推测解码框架,它使用轻量级的块扩散模型来实现快速且高质量的草稿生成。 我们的核心见解很简单:目标模型最了解。 正如 Samragh et al. (2025) 所观察到的,大型自回归 LLM 的隐藏特征隐含了关于多个未来 token 的信息。 DFlash 利用这些隐藏特征作为上下文,条件化草稿模型以并行预测未来的 token 块。 实际上,草稿模型变成了一个扩散适配器,它有效地利用了大型目标模型所建模的深度上下文特征。 DFlash 没有要求一个微小的草稿模型从头开始推理,而是将目标模型的推理能力与小型扩散草稿模型的并行生成速度相结合。
我们在广泛的模型和基准测试中评估 DFlash,并使用 SGLang (Zheng et al., 2024) 在实际部署场景下展示了它的实际效益。 正如 Figure 1 所示,DFlash 在 Qwen3-8B (Yang et al., 2025) 上实现了高达 6.1\times 的速度提升,并且在大多数基准测试上比最先进的 EAGLE-3 快近 2.5\times 。 我们相信 DFlash 在加速大语言模型推理和普及高性能人工智能方面取得了重大进展。

图1:DFlash、EAGLE-3 与使用 Transformers 后端的 Qwen3-8B (Yang 等人,2025) 上的自回归解码之间的加速比较。 总体而言,DFlash 的加速比 EAGLE-3 高出 2.5 倍以上。

相关工作

投机解码(Speculative Decoding)

推测解码通过减轻自回归生成的顺序瓶颈来加速大语言模型的推理。 早期的 (Leviathan et al., 2023) 方法采用一个较小的草稿模型来提议 token 序列,然后由一个较大的目标模型并行验证。 Medusa (Cai et al., 2024) 通过增强基础大语言模型并添加多个预测头,并使用树注意力进行并行验证,从而消除了外部草稿模型。 EAGLE 系列 (Li et al., 2025c, 2024, b) 通过利用冻结的目标模型的特征级上下文,进一步改进了推测解码。 EAGLE-1 预测未来的隐藏状态分布以提高接受率,EAGLE-2 引入了自适应草稿树,EAGLE-3 精炼了训练目标以加速提速。
尽管取得了这些进展,但大多数现有方法依赖于自回归草稿,这仍然是顺序的,限制了它们的加速效果。

扩散语言模型

扩散大型语言模型 (dLLMs) 通过并行预测掩码 token,提供了一种替代自回归生成的方法。 LLaDA (Nie et al., 2025) 是第一个将 dLLMs 扩展到数十亿参数的模型,其性能可与 LLaMA-3.1-8B (Grattafiori et al., 2024) 相媲美。 然而,全并行扩散模型存在生成长度固定和缺乏高效 KV 缓存支持的问题。 块扩散模型 (Arriola et al., 2025) 通过逐块去噪序列来解决这些问题,将并行性与自回归结构相结合。 基于这一思想,Fast-dLLM v2 (Wu et al., 2025) 和 SDAR (Cheng et al., 2025) 将预训练的自回归大语言模型改编为块扩散变体,实现了并行生成,同时在特定任务上保持了生成质量。 尽管如此,现有的 dLLMs 通常性能不如最先进的自回归模型,并且通常需要大量的去噪步骤,这限制了它们的实际推理速度。

基于扩散的投机解码(Diffusion-based Speculative Decoding)

最近的工作探索使用扩散模型作为推测解码中的起草者。 TiDAR (Liu 等人, 2025) 联合训练扩散和自回归目标,通过扩散实现并行“思考”,通过自回归解码实现顺序“说话”,尽管最终生成质量尚未无损。
其他方法将自回归模型重新用于扩散式绘图。 Samragh 等人 (2025) 观察到自回归 LLM 隐式编码未来 Token 信息并训练 LoRA 适配器以实现并行起草,同时保留用于验证的基本模型。
DiffuSpec (Li 等人, 2025a) 和 SpecDiff-2 (Sandler 等人, 2025) 采用大型预训练 dLLM 作为推测起草者,通过推理时间搜索或训练测试对齐来提高接受度。 然而,这些方法依赖于大量的起草者(例如.,7B参数),导致大量的内存和延迟开销。 虽然它们实现了较长的接受长度,但高昂的起草成本往往抵消了现实服务场景中的实际加速。

准备工作

本节形式化了推测解码的加速机制,并阐明了自回归和基于扩散的起草之间的效率权衡。我们的分析强调了为什么扩散起草者具有独特的优势,可以实现低起草延迟和高接受率。

推测解码加速

推测性解码使用较小的草稿模型 \mathcal {M}_d 加速目标模型 \mathcal {M}_t 的推理。在每个解码周期中,草稿模型都会提出 \gamma 标记,这些标记由目标模型并行验证。
在 Sadhukhan 等人 (2025) 之后,每个 Token 的平均延迟为

L = \frac{T_{\text{draft}} + T_{\text{verify}}}{\tau}

其中 T_{\text {draft}} 是生成草稿 Token 所花费的时间, T_{\text {verify}} 是验证成本,\tau\in [1,\gamma+1] 是每个周期接受的 Token 的预期数量,包括目标模型产生的奖励 Token。令 L_{\text {target}} 表示 \mathcal {M}t 的每个 Token 的自回归延迟;最终的加速比是
\eta = \frac {L{\text{target}}}{L}
该表达式使权衡变得明确:通过增加预期接受长度 \tau 或减少起草开销 T_{\text {draft}} 来提高速度。

自回归(Autoregressive)vs. 扩散绘图(Diffusion Drafting)

Talk is cheap, show me the code.
最后更新于 2026-06-03