预训练(Pre-Training)是深度学习中的核心技术,通过在大规模数据上学习通用特征或语言表示,为下游任务提供高效的基础模型。
预训练之前要确定模型的架构(包括模型基本单元 Transformer 的类型,模型的结构配置如正则化、位置编码、激活函数、注意力和偏置等,模型的规模配置如层数和各层单元数等)、预训练的具体任务(如语言建模、去噪自编码或者混合专家 (MOE) 等)、训练过程中的优化参数配置(如优化器选择、批量数 (Batch)、学习率、训练精度等)、并行训练(如数据并行、流水线并行、张量并行)与加速、稳定性控制等(如定期检查点)。
预训练过程可以分成多个阶段,每个阶段在已有检查点的基础上,调整优化参数的配置、预训练语料的构成乃至预训练任务之后进行继续训练。预训练通过通用表征学习与任务适配的有机结合,成为推动AI发展的核心驱动力,但其在效率、可解释性及伦理等方面仍需持续突破。
以下是其关键要点:
一、 预训练(Pre-Training)定义与核心思想
预训练指在特定任务训练前,利用大规模数据(标注或无标注)对模型进行初步训练,以学习通用表征。其核心在于将学习过程分为两个阶段:
- 预训练阶段:通过语言建模、自编码等任务,捕捉数据的深层结构和语义信息。例如,BERT通过双向Transformer学习上下文相关的词表示。
- 微调阶段:在预训练参数基础上,用少量标注数据调整模
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



