绫波的小屋 – 点亮赛博世界的一点萤火

发布于 6 天前

34 热度无~ 未分类

FastMTP: Accelerating LLM Inference with Enhanced Multi-Token Prediction

摘要

Meta Data 发表时间：2025-09-16 作者：Yuxuan Cai, Xiaozhuan Liang, Xinghua …

发布于 12 天前

51 热度无~ 未分类

TOOLSPEC: Accelerating Tool Calling via Schema-Aware and Retrieval-Augmented Speculative Decoding

摘要

Meta Data 发表时间：2026-04-15（arXiv 首次提交）；2026-04-16（公布）作者：Heming Xi …

发布于 2026-06-10

112 热度无~ 未分类

LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification

摘要

Meta Data 发表时间：2025-02-24；最新 arXiv 修订：2026-04-08 作者：Penghui Yang, …

发布于 2026-06-03

158 热度无~ LLMs

DFlash: Block Diffusion for Flash Speculative Decoding

摘要

Meta Data 发表时间 2026-02-12 作者：Jian Chen, Yesheng Liang, Zhijian Li …

发布于 2026-06-01

147 热度无~ LLMs

EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

摘要

Meta Data 发表时间 2025.04.23 作者：Fan Zhou, Siqiao Xue, Danrui Qi etc. …

发布于 2026-04-12

346 热度无~ 未分类

On-Policy和Off-Policy

摘要

概述在强化学习（Reinforcement Learning,RL）中，On-Policy（同策略）和Off-Policy（异策 …

发布于 2026-02-11

448 热度无~ LLMs

DB-GPT-Hub: Towards Open Benchmarking Text-to-SQL Empowered by Large Language Models

摘要

Meta Data 发表时间 2025.06.14 作者：Fan Zhou, Siqiao Xue, Danrui Qi etc. …

发布于 2026-02-05

381 热度无~ 论文阅读

Agentar-Scale-SQL: Advancing Text-to-SQL through Orchestrated Test-Time Scaling

摘要

Meta Data 发表时间 2025.09.29 作者：Pengfei Wang, Baolin Sun1, Xuemei Do …

发布于 2025-12-11

833 热度无~ 未分类

LLM相关随笔记

摘要

为什么要创建flash-attention？原始self-attention的时间和空间复杂度是序列长度的二次方，当序列长度过长 …

发布于 2025-12-06

999 热度无~ 未分类

DeepSeekV3.2：突破开源大语言模型的前沿边界

摘要

摘要我们推出DeepSeek-V3.2，该模型实现了高计算效率与卓越推理能力、智能体性能的协同统一。其核心技术突破包括： De …

点亮赛博世界的一点萤火

Display

最好用的ChatGPT应用！

赛博算命，最为致命

生成式AI应用创新引擎

掼蛋教练

大漠驼铃映北疆

Article