
大语言模型
文章平均质量分 96
Ace_bb
这个作者很懒,什么都没留下…
展开
-
细嗦Transformer(四):训练测试,使用一个简单的copy任务测试训练代码
这里要注意的是在torch的,对tensor进行narrow()、view()、expand()和transpose()等操作都不会创建新的tensor,都是在原数据的基础上进行操作,也就是操作前后的tensor是共享内存的。detach()函数在Pytorch中用于从当前计算图中分离张量,分离是创建一个新的张量,原始张量在计算图中依旧存在,并不受影响。函数,这个函数不会一次返回所有批次的数据,而是一个批次一个批次的返回,只有当模型需要数据的时候,才会返回一个批次数据,这对于大规模预训练中,是必不可少的。原创 2024-11-04 22:55:53 · 980 阅读 · 0 评论 -
细嗦Transformer(二): Attention及FFN等细节部分解读和代码实现
因此,padding部分是不带有任何语义,也不需要参与注意力计算的,所以需要在计算注意力的得分之前,将padding部分mask掉,通常是将padding位置的得分设为一个非常大的负数,通过softmax后,这些位置的权重接近于0,从而不影响实际有效的token序列。在Embedding的时候,一个token是embbeding成维的向量,如果输入的token长度为4096,一个token embedding成,那么输入层Embedding之后的维度为维,是一个矩阵。的维度不一定与的维度相同。原创 2024-10-14 10:03:50 · 1445 阅读 · 1 评论 -
细嗦Transformer(一): 整体架构及代码实现
所以更适合处理摘要生成,翻译等任务。解码器最后的输出需要经过全连接层,将最后一个DecoderLayer的输出映射成词表大小的向量,再经过Softmax得到词表中每个词的预测概率,概率最大的即为预测的词。Generator就是最后的模型输出部分,是最后的输出部分,经过一个标准线性变化,输入维度为,输入维度为 ,再经过Softmax,得到词表中每个词的概率。这里将子层也单独抽象成一个类表示,因为不管是EncoderLayer、还是DecoderLayer的子层,都需要经过残差连接和层归一化,是可以复用的。原创 2024-10-14 09:36:21 · 1478 阅读 · 0 评论 -
图解Self-Attention和代码实现,大语言模型基础思维导图
自注意力机制(Self-Attention)虽然强大,但在实际应用中也存在一些问题,以下是一些主要问题以及相应的解决方案:1.原创 2024-09-16 16:40:01 · 1355 阅读 · 0 评论