
NLP
文章平均质量分 95
全息数据
用数据拟合世界。
展开
-
Transformer代码从零解读【Pytorch官方版本】
输入经过词向量层和位置编码层,得到最终的输入,通过掩码注意力机制,然后交互注意力机制与Encoder的输出做交互,Encoder的输出做K矩阵、V矩阵,Decoder的值做Q矩阵,再经过前馈神经网络层,得到Decoder的输出,解码端是没法并行的,因为输入【S】,输出【I】,然后输出的【I】作为下一阶段的输入,这一次的输入取决于上一次的输出,所以解码端无法并行,如果当前输入为【S】,则后面的【卷起来】被遮挡,当输入为【S卷】时,后面的【起来】被遮挡,形成上三角矩阵为1的矩阵,如何去掉PAD信息?原创 2024-03-16 15:18:45 · 2311 阅读 · 2 评论 -
ChatGLM-6B训练本地知识库【详解】
左边是Encoding,右边是Decoding,trm的输入和输出都可以是序列,所以trm可以做文本翻译,BERT是Bidirectional Encoder Representations from Transformers的缩写,BERT是Transformer的Encoder一个预训练的语言表征模型在大量未标注的文本数据集上训练论文发表时在11个NLP任务上取得最佳指标BERT所做的事情就是把一个句子输出一个Embedding,原创 2024-02-05 11:05:07 · 2006 阅读 · 1 评论 -
Transformer结构详解【学习笔记】
然后再对Encoders(编码),Decoders(解码)进行细化,如下图,需要注意Encoders之间的结构是相同的,Decoders之间的结构也是相同的,虽然Encoders和Decoders之间各自的结构是相同的,但是是单独训练的,Encoders和Decoders的数量是超参数,可以自己定义,,依次对输入的【我爱你。下面再举一个NLP的例子,Query代表【爱】,分别与Key1,Key2,Key3,Key4代表的【我】,【不】,【爱】,【你】做点乘,具体步骤如下2图,比如输入的词是【我爱你。原创 2024-01-11 12:44:11 · 1861 阅读 · 2 评论