原文链接
总结和相关词汇解释
一、为支持预训练:2万亿个标记的数据集
二、监督微调和直接偏好优化:
监督微调
预训练的模型基础上,利用特定任务的标注数据(即带有标签的数据)对模型进行进一步训练,以便使模型能够更好地适应特定的任务需求。
实施步骤:
选定特定任务:选择一个具体的任务(如分类、回归、生成等)和相关的标注数据集。这个数据集包含了输入数据及其对应的标签(例如,图像分类任务中的标签为每个图像所属的类别,文本分类任务中的标签为文本的类别)。
微调过程:通过使用该任务的标注数据来进一步训练预训练模型。微调时,我们会通过监督学习的方式调整模型的参数,使其能更好地适应特定任务的需求。
ps:预训练:为了提高训练效率,通常先在大量通用数据上训练一个基础模型
直接偏好优化
用于通过直接优化模型输出的偏好来提高决策质量。它的核心思想是直接从数据中学习用户或系统的偏好,而不是依赖于复杂的奖励模型或手工定义的目标函数。
定义:
三、在 代码,数学,推理领域超越了LLaMA-2 70B
自注意力机制(Self-Attention) 的模型,它通过并行化计算和长距离依赖建模,显著提高了模型的效率和能力
编码器(Encoder):用于处理输入序列,提取输入数据的表示。
解码器(Decoder):基于编码器的输出生成目标序列。解码器逐步预测每个位置的输出,通常用于生成任务
重要特性:
自回归(Autoregressive):解码器在生成过程中会依赖于之前已生成的词(tokens)。在生成第 n 个词时,解码器会利用前 n-1 个词作为上下文信息。这种方式称为自回归生成。
Masked Attention:在训练过程中,解码器会使用掩蔽的自注意力机制,确保模型只能访问当前词之前的信息,而无法看到未来的词,从而模拟实际生成的过程。
语言模型的缩放行为
定义:缩放规律通常指的是模型大小(例如,参数数量)、训练数据量以及计算资源与模型性能之间的关系。(随着模型规模(如参数数量、训练数据量等)增加时,人工智能模型的表现如何变化的规律)