LLM 预训练|SFT监督微调|推理

深度解析:LLM预训练与SFT微调中的交叉熵损失与推理过程

LLM 预训练|SFT监督微调|推理

交叉熵损失

熵(Entropy)是信息论中的一个核心概念,它量化了一个随机变量的不确定性或信息内容。交叉熵(Cross Entropy)进一步发展了这个概念,用于衡量两个概率分布之间的差异。
L = − 1 N ∑ i = 1 N y i , c log ⁡ P ( y ^ i , c ) L = -\frac{1}{N} \sum_{i=1}^{N} y_{i,c} \log P(\hat{y}_{i,c}) L=N1

### 预训练微调方法概述 大型语言模型(LLM)的预训练微调是构建高效、高性能模型的关键步骤。以下是关于这两种技术的核心概念及其具体实现方式。 #### 预训练阶段 预训练的目标是从大量无标注数据中学习通用的语言表示。这一过程通常依赖于自监督学习任务,例如掩码语言建模(MLM)、因果语言建模(CLM),以及其他变体。 - **掩码语言建模(Masked Language Modeling, MLM)**: 这种方法随机掩盖输入序列中的某些词,并让模型预测被掩盖的部分[^4]。这种方法有助于捕捉上下文之间的关系。 - **因果语言建模(Causal Language Modeling, CLM)**: 在这种设置下,模型基于先前的单词预测下一个单词。这是生成式任务的基础之一[^1]。 通过大规模语料库上的预训练,模型可以获得丰富的语法结构理解能力以及跨领域知识。例如,在SFT之后,经过精心设计的模型能够在多种基准测试中表现出色,同时支持多模态推理功能[^3]。 #### 微调阶段 微调是指在特定下游任务上进一步优化已经完成预训练的大规模语言模型的过程。根据不同的应用场景和技术路线,存在几种主要类型的微调: 1. **全量微调(Full Fine-Tuning)**: - 对整个神经网络的所有权重进行全面更新操作。尽管效果较好,但由于涉及大量的可训练参数,因此计算成本较高。 2. **低秩适应(Low-Rank Adaptation, LoRA)** 和其他轻量化方案: - 提出了更高效的迁移学习框架,比如Ladder Side-Tuning (LST),它仅需增加少量额外参数即可达到良好表现水平。另外还有(IA)^3 方法,该方法通过对内部激活值施加抑制或增强作用来引入适配器机制,从而减少新增参数数量并降低内存消耗[^5]。 3. **指令调整(Instruction Tuning)**: - 是一种特殊的微调形式,特别适用于处理由自然语言编写的多样化命令集合的情况。FLAN项目展示了如何利用此类技术提升零样本泛化能力。 综上所述,无论是选择哪种具体的微调策略都需要综合考虑目标应用的需求特点以及资源限制条件等因素的影响。 ```python def example_finetune(model, dataset): """ A simple function demonstrating the concept of fine-tuning. Args: model: Pre-trained language model instance. dataset: Dataset specific to a downstream task. Returns: Finetuned_model: Model after being adapted to new data distribution. """ finetuned_model = model.fit(dataset) return finetuned_model ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值