发布于 2024-02-19
摘要
基础知识 transformer 八股文 Self-Attention的表达式 为什么在上面的公式中要对QK进行scaling s …
基础知识 transformer 八股文 Self-Attention的表达式 为什么在上面的公式中要对QK进行scaling s …
单GPU训练 预训练 CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \ –st …
背景 ChatGPT和InstructGPT是一对孪生兄弟,它们在模型结构和训练方式上都完全一致,核心思想在于使用指示学习(Ins …
算法概述 深度优先搜索(Depth-First Search,DFS)是十分常见的图搜索方法之一。深度优先搜索会沿着一条路径一直搜 …
Python中的深拷贝和浅拷贝 python中的拷贝分为深拷贝和浅拷贝两种方式: 浅拷贝(shallow copy)指的是将一个对 …
强化学习介绍 强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行 …
Leecode56. 合并区间 题目链接:https://leetcode.cn/problems/merge-intervals …
概述 RNN是一种重要的深度学习模型,广泛应用于序列建模任务,如语言模型、序列生成和时间序列预测等。本文对RNN的基本原理与结构进 …
第一章 业务指标 数据分类 用户数据:我是谁 行为数据:我做了什么 产品数据:卖什么 常见指标 用户数据指标 对于新增用户使用的指 …
两个人完抛硬币的游戏,谁先抛到正面就获胜,那么先抛获胜的概率是? 思路一:把A、B都抛硬币看成一次游戏 情况1:A第一次抛出正面- …