自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 李宏毅 Deep Learning

AdaGrad 的本质是给更新频繁(历史梯度大)的参数一个越来越小的学习率,给更新稀疏(历史梯度小)的参数一个相对较大的学习率。Transformer 是一个基于自注意力的序列到序列模型,与基于循环神经网络的序列到序列模型不同,其可以能够并行计算;GPT 模型建立在 Transformer 的解码器的基础上,不过其会做 mask 的注意力。解码器的输入是它在前一个时间点的输出,其会把自己的输出当做接下来的输入(训练的输入是标准答案,测试的输入是自己的输出(Mismatch)

2025-09-13 21:55:29 993

原创 Python 常用内置函数

注意:1. 迭代器是会被耗尽的 2. 返回的是迭代器。注意:使用无参构造函数时,它都会创建该类型的默认值。

2025-12-19 21:58:55 544

原创 CS336 Lecture_15

现今很多后训练流程仍然是基于 Instruct GPT 论文的,构建一个遵循指令的模型需要三步流程。

2025-12-04 20:44:07 1010

原创 CS336 Lecture_04

这节课讲解的是 MoE 架构(混合专家模型,Mixture of Experts)

2025-11-25 22:58:38 804

原创 Attention by 3B1B

假定一个场景:每个名词都在问:"我前面有形容词吗",这样的提问被编码为了另一个向量,我们称它为这个词的"查询" Query,查询向量的维度比嵌入向量小的多,比如 128 维。这个方法要用到第三个矩阵,称之为"值矩阵" Value,将它乘以前面那个词的嵌入向量,得到的就是"值向量" Value Vector,这个就是要给后词的嵌入向量所加的向量。每个词的初始嵌入是一个高维向量,只编码了该单词的含义,与上下文无关,当然向量还编码了词的位置信息,这个向量足以说明这个词是什么,以及它在文中的位置。

2025-11-22 22:35:28 637

原创 数据结构与算法

顺序栈int top;}SqStack;S.top=-1;链栈}*LiStack;}SqQueue;}LNode;}LinkQueue;//静态数组int length;}SString;//动态数组char *ch;int length;}HString;HString S;S.length=0;

2025-11-21 21:40:47 511

原创 CS336 Lecture_03

本节课介绍了大模型架构不同模块的各种变体,超参数的设置,稳定模型训练的技巧,以及减少计算资源使用的一些方法;

2025-11-21 21:37:51 1013

原创 CS336 Lecture_02

本节课介绍了如何利用资源,包括内存(GB)和计算(FLOPs),以及模型中的张量,参数,优化器和混合精度训练等内容。

2025-11-18 21:35:00 760

原创 CS336 Lecture_01

这节课介绍了分词器 Tokenization 的作用和分类。

2025-11-17 14:03:51 435

原创 数据库 - SQL

数据类型表示内容CHAR(n)长度为n的字符型VARCHAR(n)最大长度为n的变长字符型NUMBER(n)长度为n的数字型INT长整型(4B)SMALLINT短整型(4B)BIGINT大整型(8B)FLOAT(n)精度至少为n位的浮点数DATE日期,格式为YYYY-MM-DDTIME时间,格式为HH:MM:SS。

2025-11-14 19:50:24 813 1

原创 Pytorch深度学习(小土堆)

注意此代码中的 add_images 而不是 add_image,因为 imgs 包含多张图片。如果 Dataset 大小不能被 batch_size 整除,则设置为。可在每个 epoch 重新排列数据(默认为。以丢弃最后一个不完整的批次;每次加载多少个样本(默认为。用于数据加载的子进程数量。表示数据将在主进程中加载;

2025-08-26 21:31:45 1190

原创 吴恩达 Machine Learning(Class 3)

2025-08-20 21:15:14 731

原创 吴恩达 Machine Learning(Class 2)

2025-08-18 19:18:50 1064

原创 吴恩达 Machine Learning(Class 1)

识别数据中不符合预期模式的异常点,常用于网络安全、欺诈检测等领域。:通过减少数据中的特征数量,提取出最重要的信息。

2025-08-18 19:16:35 1052 1

原创 《Pytorch深度学习实践》ch8-多分类

-----B站《刘二大人》

2025-06-05 21:52:25 769

原创 《Pytorch深度学习实践》ch7-加载数据集

-----B站《刘二大人》

2025-06-04 23:02:41 281

原创 《Pytorch深度学习实践》ch6-多维特征输入

-----B站《刘二大人》

2025-06-04 20:35:08 597

原创 《Pytorch深度学习实践》ch5-Logistic回归

-----B站《刘二大人》

2025-06-03 22:42:16 679

原创 《Pytorch深度学习实践》ch4-线性回归

-----B站《刘二大人》

2025-06-03 15:05:38 441

原创 《Pytorch深度学习实践》ch3-反向传播

------B站《刘二大人》 绘图如下:

2025-06-02 21:58:42 394

原创 《Pytorch深度学习实践》ch2-梯度下降算法

-----B站《刘二大人》

2025-06-01 15:11:32 247

原创 《Pytorch深度学习实践》ch1-线性模型

-----B站《刘二大人》

2025-05-29 23:10:36 336

原创 数据可视化

【代码】数据可视化。

2025-05-21 22:48:24 734

原创 Python基础

一句话概括就是:利用类去创造实例关键词class把数据 (属性) 和操作 (方法) 封装起来。方法用于在创建类的实例时进行初始化操作,第一个参数通常被命名为self,它指向类的实例对象。注意:调用属性时不加圆括号 (),使用方法时需要圆括号 ()# 定义一个名为 Rectangle 的类# 定义对象# 定义方法,,分别计算矩形周长,面积# 利用类创建实例# 调用方法print('矩形周长')print('矩形面积')小鸡:# 创建了一个名为 "Chicken" 的类。

2025-05-21 22:45:06 1566

原创 AcWing-算法基础

【代码】AcWing-算法基础。

2025-02-20 13:06:34 1022

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除