
深度学习
文章平均质量分 77
不想转生信的小张
学生
展开
-
优化算法与深度学习
优化算法使我们能够继续更新模型参数,并使损失函数的值最小化。一旦我们有了损失函数,我们就可以使用优化算法来尝试最小化损失。在优化中,损失函数通常被称为优化问题的目标函数。优化算法的目标函数通常是基于训练数据集的损失函数,因此优化的目标是减少训练误差。而深度学习的目标是减少泛化误差。简单地说,如果对于任何a, b ∈ X,连接a和b的线段也位于X中,则向量空间中的一个集合X是凸的。给定一个凸集X,如果对于所有x, x′ ∈ X和所有λ ∈ [0, 1],函数f : X → R是凸的。目标函数通常是训练数据原创 2024-04-12 11:01:33 · 420 阅读 · 0 评论 -
BERT预训练
而GPT是任务无关的,但是从左到右编码上下文。BERTEncoder的前向推断给出了输入文本的每个词元和插入的特殊标记“”及“”的BERT表示。当输入为文本对时,BERT输入序列是“”、第一个文本序列的标记、“”、第二个文本序列标记、以及“”的连结。当输入为单个文本时,BERT输入序列是特殊类别词元“”、文本序列的标记、以及特殊分隔词元“”的连结。• 对于上下文敏感的词表示,如ELMo和GPT,词的表示依赖于它们的上下文。• BERT输入序列的嵌入是词元嵌入、片段嵌入和位置嵌入的和。的方式预测掩蔽词元。原创 2024-04-10 17:50:49 · 682 阅读 · 0 评论 -
Transformer
有b句话,每句话有len个词,每个词由d个特征表示,BN是对所有句子所有词的某一特征做归一化,LN是对某一句话的所有词所有特征做归一化。• Transformer模型中基于位置的前馈网络使用同一个多层感知机,作用是对所有序列位置的表示进行转。• Transformer是编码器-解码器架构的一个实践,尽管在实际情况中编码器或解码器可以单独使用。在计算编码器的自注意力时,查询、键和值都来自前一个编码器层的输出。也是由多个相同的层叠加而成的,并且层中使用了残差连接和层规范化。在编码器-解码器注意力中,原创 2024-04-10 16:06:29 · 480 阅读 · 0 评论