
深度学习
文章平均质量分 78
东石有海
这个作者很懒,什么都没留下…
展开
-
Bert模型
Bert模型: 无监督:预训练有监督:微调BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,144个self-attention机制离当前字的距离越远,相关程度越低Bert模型的输入:3部分nsp二分类任务:处理2个句子之间的关系,所以加特殊符号,cls向量不能代表整...原创 2021-08-18 13:48:49 · 1522 阅读 · 0 评论 -
Seq2Seq模型
seq2seq(sequence to sequence)模型是NLP中的一个经典模型。最初由Google开发,并用于机器翻译。它基于RNN网络模型构建,能够支持且不限于的应用包括:语言翻译,人机对话,内容生成等。seq2seq模型结构和特点seq2seq指的是从序列A到序列B的一种转换。主要是一个由编码器(encoder)和一个解码器(decoder)组成的网络。编码器将输入项转换为包含其特征的相应隐藏向量。解码器反转该过程,将向量转换为输出项,解码器每次都会使用前...原创 2021-08-18 08:49:15 · 6562 阅读 · 0 评论 -
LSTM-长短期神经网络
LSTM是特殊的RNN,尤其适合顺序序列数据的处理,内部由遗忘门、输入门和输出门组成,循环神经网络(RNNs):通过不断将信息循环操作,保证信息持续存在,从而解决不能结合经验来理解当前问题的问题。RNN和LSTM都只能依据之前时刻的时序信息来预测下一时刻的输出LSTM是特殊的RNN,尤其适合顺序序列数据的处理,内部由遗忘门、输入门和输出门组成,循环神经网络(RNNs):通过不断将信息循环操作,保证信息持续存在,从而解决不能结合经验来理解当前问题的问题。图中可看出...原创 2021-08-18 08:34:50 · 1300 阅读 · 0 评论 -
Transform模型
Transformer。它在 NLP 各个任务中都取得了优异的性能,它是预训练语言模型的核心网络。给定一句话或是一个段落作为输入,首先将输入序列中各个词转换为其对应的词向量,同时加上每一个词的位置向量,体现词在序列的位置。然后将这些词向量输入到多层 Transformer 网络中,通过自注意力**(self-attention)机制来学习词与词之间的关系,编码其上下文信息,再通过一个前馈网络**经过非线性变化,输出综合了上下文特征的各个词的向量表示。**每一层 Transformer 网络主...原创 2021-08-17 21:31:08 · 7049 阅读 · 0 评论 -
Attention机制
Attention机制的具体计算过程,如果对目前大多数方法进行抽象的话,可以将其归纳为两个过程: 第一个过程是根据Query和Key计算权重系数,第二个过程根据权重系数对Value进行加权求和。 而第一个过程又可以细分为两个阶段: 第一个阶段根据Query和Key计算两者的相似性或者相关性,求相似性方法有点乘,权重,余弦相似性等; 第二个阶段对第一阶段的原始分值进行归一化处理; 可以将Attention的计算过程抽象为三个阶段。注意力机制模仿了生物观察行为的内部过程,...原创 2021-08-17 21:16:47 · 704 阅读 · 0 评论 -
关于循环神经网络RNN的理解
先看百度给的定义:循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。...原创 2021-07-22 11:31:34 · 1077 阅读 · 0 评论 -
TensorFlow深度学习--前向传播demo龙良曲版
利用手写数据集Mnist,完成前向传播。import matplotlib.pyplot as pltimport tensorflow as tfimport tensorflow.keras.datasets as datasetsimport osos.environ['TF_CPP_MIN_LOG_LEVEL']='1'plt.rcParams['font.size'] = 16plt.rcParams['font.family'] = ['STKaiti']plt.r..原创 2021-07-19 08:55:42 · 380 阅读 · 0 评论