发布于 20 天前
摘要
为什么要创建flash-attention? 原始self-attention的时间和空间复杂度是序列长度的二次方,当序列长度过长 …
点亮赛博世界的一点萤火
为什么要创建flash-attention? 原始self-attention的时间和空间复杂度是序列长度的二次方,当序列长度过长 …
摘要 我们推出DeepSeek-V3.2,该模型实现了高计算效率与卓越推理能力、智能体性能的协同统一。 其核心技术突破包括: De …
简介 Transformer的核心部分是Attention注意力机制,通过引入Attention机制,模型能够处理序列数据的时候有 …
简介 KV Cache本质上是一种缓存机制,主要应用在Transformer架构的模型中,尤其是生成式任务的推理阶段。在Trans …
简介 LoRA(Low-Rank Adaptation)微调是微软研究院在2021年推出的一种高效参数微调(Parameter-e …
近端策略优化算法PPO(Proximal Policy Optimization) PPO算法在openai的论文《Trainin …
Meta Data 发表时间 2025.08.1 作者:Guiyao Tie, Zeli Zhao, Dingjie Song e …
引言 语言模型的发展历程 统计语言模型(Statistical Language Model,SLM)。统计语言模型使用马尔可夫假 …
项目形态 文件解析环节与知识库绑定,支持在创建知识库时绑定同义词库,从而在知识切片解析时为每个chunk配置关键词过滤信息,减少检 …
引言 在LangChain中,内置了9种经典的复杂Agent交互模式,他们分别针对于特定任务设计,具有独特的优势和使用场景,涉及R …