预训练基础模型入门
1. 引言
在人工智能和机器学习领域,基础模型如今已成为众多系统的核心支柱。它们是如何创建的,又怎样提升模型的准确性呢?接下来,我们将深入探讨预训练基础模型的相关知识,包括预训练和微调的艺术、Transformer 模型架构、最先进的视觉和语言模型,以及编码器和解码器的工作原理。
2. 预训练和微调的艺术
2.1 基础模型的概念
基础模型本质上是大规模数据集的紧凑表示。通过对数据集应用预训练目标,如预测掩码标记或完成句子,从而得到这种表示。一旦基础模型通过预训练过程创建完成,它们既可以直接部署,也可以针对下游任务进行微调。
例如,Stable Diffusion 是直接部署的基础模型,它在数十亿的图像 - 文本对上进行了预训练,预训练完成后可立即根据文本生成有用的图像。而 BERT 则是经过微调的基础模型,它在大型语言数据集上进行预训练,但在适应下游领域(如分类)时最为有用。
2.2 预训练目标
预训练目标是一种利用数据集中现成信息而无需大量人工标注的方法。常见的预训练目标包括:
- 掩码标记 :用独特的 [MASK] 标记替换某些单词,并训练模型填充这些单词。
- 序列生成 :使用给定文本字符串的左侧来尝试生成右侧。
训练过程通过前向传播和反向传播来更新神经网络的参数。前向传播将原始训练数据通过神经网络产生输出单词,损失函数计算预测单词与数据中实际单词之间的差异。反向传播通常利用随机梯度下降来更新神经网络的参数,以降低损失函数。
不同
超级会员免费看
订阅专栏 解锁全文
2614

被折叠的 条评论
为什么被折叠?



