- 博客(24)
- 资源 (1)
- 收藏
- 关注
原创 Beam Search 和Sampling方法的时间复杂度对比
**Beam Search** 的时间复杂度为 \(O(B \cdot T \cdot V)\),其中 \(B\) 是 Beam 的宽度。需要注意的是,某些采样方法可能会对候选词进行排序(如 Top-k 采样、Top-p 采样),这会增加一些额外的开销,但相对于整个生成过程的复杂度,这部分通常较小,可以认为时间复杂度仍然是 \(O(T \cdot V)\)。- **采样方法** 的时间复杂度为 \(O(T \cdot V)\),相对较低,因为每一步只进行一次采样或少量的排序操作。
2024-07-24 16:11:35
490
原创 Batch Normalization在推理时如何作用?
Batch Normalization(批归一化)是一种在深度学习中广泛使用的正则化技术,其主要目的是提高训练速度和稳定性。
2024-07-15 23:45:16
1288
原创 Transformer中Layer Normalization及其在推理时如何作用?
在Transformer中,Layer Normalization是一种正则化技术,旨在提高模型的训练速度和稳定性。
2024-07-15 23:37:31
1011
原创 #线性代数:两个随机变量相乘的方差
假设X和Y是两个随机变量,我们需要求XY的方差。VarXE[(X−EX2E[(X2−2XEXEX2EX2−EX2根据方差的定义,方差是平方值的期望减去期望值的平方,即VarXYE[(XY2−EXY2EXYCovXYE[(X−EX])Y−EY])]EXY−XEY−EXYEXEY]]EXY−EXEY−EXEYEXEYEXY。
2024-07-15 00:20:20
2953
原创 Transformer在计算softmax之前为什么要除以维度的开方
在计算注意力时,特别是在使用缩放点积注意力(Scaled Dot-Product Attention)时,确实会用到除以维度的平方根。本文详细这一步操作的原因和意义。假设我们有查询向量 QQQ、键向量 KKK 和值向量 VVV,它们的维度为 dkd_kdk。注意力计算的公式为:Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d_k}}\right) VAt
2024-07-14 23:55:03
707
原创 线性代数:多个随机变量相加的方差
独立情况下VarX1X2Xn∑i1nVarXiVarX1X2Xn∑i1nVarXi不独立情况下VarX1X2Xn∑i1nVarXi∑i≠j2CovXiXjVarX1X2Xn∑i1nVarXi∑ij2CovXiXj。
2024-07-14 22:58:05
5139
原创 Transformer中Decoder的计算过程及各部分维度变化
在Transformer模型中,解码器的计算过程涉及多个步骤,主要包括自注意力机制、编码器-解码器注意力和前馈神经网络。
2024-07-14 17:03:54
1262
原创 Transformer: Layer Normalization (LN) 和 Instance Normalization (IN)
Layer Normalization 和 Instance Normalization 是深度学习中两种重要的归一化技术,它们分别在不同的任务和场景中发挥重要作用。理解和正确使用这两种归一化方法,可以显著提升模型的性能和收敛速度。
2024-07-13 16:46:30
865
原创 机器学习:LayerNorm和BatchNorm的区别
LayerNorm(Layer Normalization)和BatchNorm(Batch Normalization)是深度学习中常用的正则化技术,它们的作用是在神经网络训练过程中提升模型的收敛速度和稳定性,从而加快训练并提高模型的泛化能力。
2024-07-12 21:09:48
3573
1
原创 Transformer中Encoder的计算过程及各部分维度变化
Transformer模型中的维度变化主要发生在以下几个部分:输入嵌入(embedding)、多头注意力机制(Multi-Head Attention)、前馈神经网络(Feed-Forward Neural Network)以及残差连接和层归一化(Residual Connection and Layer Normalization)。
2024-07-12 20:14:51
1186
原创 Transformer多头注意力的计算量和单头注意力计算量比较
多头注意力机制(Multi-Head Attention)在Transformer中引入了多个并行的注意力头,每个注意力头可以学习到不同的特征表示。尽管这种机制增强了模型的表达能力,但也增加了一些计算量。下面详细比较一下多头注意力和单头注意力的计算量。
2024-07-12 19:24:26
1717
1
原创 验证集的loss与Acc走势问题
验证集的loss与Acc走势问题发现验证集的loss上升,而Acc却也在上升后期模型预测走向极端,少量错误的样本使loss变大,而准确率没有太大的影响,甚至升高。https://zhuanlan.zhihu.com/p/163676138
2021-05-05 15:49:07
2219
2
原创 StratifiedKFold
StratifiedKFold设置shuffle=True的情况虽然会随机划分仍然保持每类中的比例而且返回的索引仍然是从小到大的因为训练的时候需要再次shuffle
2021-05-05 15:48:40
275
原创 pytorch训练过程内存泄漏
pytorch训练过程中的内存泄漏训练到一半总是提示内存已满,bug new Ram注意自动求梯度的值特别是loss,不能以张量的形式随便参与运算1.loss_list.append(loss)
2021-05-04 22:28:31
824
原创 python中导入模块注意
python中导入模块注意模块导入新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入模块导入python中导入模块时,都会将模块中的内容执行一遍,所以模块中的非函数部分的代码,如果不希望在导入的时候执行,而希望在作为主函数
2020-09-16 18:40:50
312
原创 python中二维数组的赋值问题
a=[[0,0]for_inrange(5)]b=[[0,0]]*5print("olda=",a)print("oldb=",a)foriinrange(5):a[i][1]=ib[0][1]=1#foriinrange(5):#b[i][1]=iprint("newa=",a)...
2020-01-26 13:17:39
1520
原创 A simp task WOJ
casenum = 1while True: string=list(input()) if string[0]=="#": break flag=1 i=0 while i<len(string): if flag==0: string[i]=string[i].upper() ...
2020-01-19 20:08:29
197
原创 python中使用list的删除需要注意
casenum =int(input())for k in range(casenum): ans=0 n=int(input()) buildings=list(map(int,input().split())) while buildings:#如果开始的列表中还有值 Magicalset = set() ...
2020-01-17 10:07:47
211
原创 武汉大学计算机学院2019年夏令营考核回忆版
笔试:数据结构(40')选择题6道(每道2')大题:1.如何组织数据结构使插入和删除的时间复杂度是n(logn),分析说明。2.设计一个时间复杂度尽可能低的算法将链表中的重复节点去除。3.如何判断一个无向图是一棵树,编写算法。高级语言程序设计(30')只有大题:1.程序改错2.程序填空(将一个链表倒序)3.有一个成绩表,记录S个学生的答题情况,一共有10...
2019-07-11 15:33:27
1296
原创 POJ4150上机
描述又到周末了,同学们陆陆续续开开心心的来到机房上机。jbr也不例外,但是他到的有点晚,发现有些机位上已经有同学正在做题,有些机位还空着。细心的jbr发现,一位同学来到机房,坐在机位i上,如果他的左右两边都空着,他将获得能力值a[i];如果当他坐下时,左边或者右边已经有一个人在上机了,他将获得能力值b[i];如果当他坐下时,他的左边右边都有人在上机,他将获得能力值c[i]。同时他发现...
2019-05-09 21:13:02
437
原创 JS属性的访问
如何访问JS的对象属性与方法,访问JS对象属性与方法的注意事项有哪些,下面就是实战案例,一起来看一下。定义一个对象,然后用点运算符(.)来访问属性和方法。今天突然看见还有另外一种方法中括号运算符([]),就认真看了下。 1 2 3 4 5 6 7 8 9 10 11 12 ...
2019-04-26 18:06:39
573
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人