Article

post_img

LLM相关随笔记

摘要

为什么要创建flash-attention? 原始self-attention的时间和空间复杂度是序列长度的二次方,当序列长度过长 …

post_img

KV Cache原理

摘要

简介 KV Cache本质上是一种缓存机制,主要应用在Transformer架构的模型中,尤其是生成式任务的推理阶段。在Trans …

post_img

RAG项目洞察

摘要

项目形态 文件解析环节与知识库绑定,支持在创建知识库时绑定同义词库,从而在知识切片解析时为每个chunk配置关键词过滤信息,减少检 …