发布于 3 小时前
摘要
概述 在强化学习(Reinforcement Learning,RL)中,On-Policy(同策略)和Off-Policy(异策 …
点亮赛博世界的一点萤火
概述 在强化学习(Reinforcement Learning,RL)中,On-Policy(同策略)和Off-Policy(异策 …
Meta Data 发表时间 2025.06.14 作者:Fan Zhou, Siqiao Xue, Danrui Qi etc. …
Meta Data 发表时间 2025.09.29 作者:Pengfei Wang, Baolin Sun1, Xuemei Do …
为什么要创建flash-attention? 原始self-attention的时间和空间复杂度是序列长度的二次方,当序列长度过长 …
摘要 我们推出DeepSeek-V3.2,该模型实现了高计算效率与卓越推理能力、智能体性能的协同统一。 其核心技术突破包括: De …
简介 Transformer的核心部分是Attention注意力机制,通过引入Attention机制,模型能够处理序列数据的时候有 …
简介 KV Cache本质上是一种缓存机制,主要应用在Transformer架构的模型中,尤其是生成式任务的推理阶段。在Trans …
简介 LoRA(Low-Rank Adaptation)微调是微软研究院在2021年推出的一种高效参数微调(Parameter-e …
近端策略优化算法PPO(Proximal Policy Optimization) PPO算法在openai的论文《Trainin …
Meta Data 发表时间 2025.08.1 作者:Guiyao Tie, Zeli Zhao, Dingjie Song e …