Article

post_img

LLM相关随笔记

摘要

为什么要创建flash-attention? 原始self-attention的时间和空间复杂度是序列长度的二次方,当序列长度过长 …

post_img

KV Cache原理

摘要

简介 KV Cache本质上是一种缓存机制,主要应用在Transformer架构的模型中,尤其是生成式任务的推理阶段。在Trans …