大语言模型
文章平均质量分 84
不断更行各种大语言模型的知识
懒惰才能让科技进步
中科院在读博士一枚
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从零学习大模型(十四)-----量化(二)
权重量化:量化神经网络中的权重,主要减小存储占用和加速计算。激活量化:量化激活值,减少内存占用并加速推理过程。梯度量化:量化训练过程中的梯度,优化训练效率,尤其是在分布式训练中。每种方法都有其适用场景和挑战,通常在实际应用中,多个量化方法会结合使用,以在不同的硬件环境下达到最优的精度和性能平衡。离线量化(PTQ):简单且高效,适用于已经训练好的模型,通过校准数据集选择量化参数以减少精度损失。量化感知训练(QAT):通过模拟量化误差,并在训练过程中优化网络以适应低精度计算,通常能获得较高的精度。原创 2024-11-05 15:57:51 · 1783 阅读 · 0 评论 -
从零学习大模型(十四)-----量化(一)
量化(Quantization)是一种在计算机科学和深度学习中广泛应用的技术,其基本目标是通过减少模型中数值表示的位宽来降低计算和存储成本。简单来说,量化就是将高精度(通常是浮点数)转换为低精度(通常是定点数)表示,同时尽量保持模型的性能和准确性。量化通常用于深度学习模型(尤其是大模型)中,以减小模型的存储空间和提高推理速度。量化不仅可以减少模型的内存占用,还能提高硬件的计算效率,尤其是在低功耗设备(如移动端、嵌入式系统、边缘计算设备)上。范围选择:确定量化数据的最小值和最大值,从而决定数据的量化范围。原创 2024-11-05 15:56:29 · 2267 阅读 · 0 评论 -
从零学习大模型(十三)-----LayerDrop 和 Layer Pruning
LayerDrop 和 Layer Pruning 都是神经网络模型简化技术,目的是通过减少网络中的层数来提高效率和降低计算开销,但它们在实现方法上有所不同。原创 2024-11-04 20:11:19 · 1352 阅读 · 0 评论 -
从零学习大模型(十二)-----基于梯度的重要性剪枝(Gradient-based Pruning)
权重重要性通常指的是某个权重参数在模型输出中的影响程度。绝对值:一个常见的方法是直接使用权重的绝对值作为其重要性指标。权重越大,表示其对模型输出的影响越大,因此可以认为其重要性越高。对模型性能的影响:通过在剪枝前后比较模型的性能,可以间接评估某个权重的重要性。若剪除某个权重后,模型性能显著下降,则说明该权重是重要的。原创 2024-11-04 20:09:20 · 2092 阅读 · 0 评论 -
从零学习大模型(十一)-----Lottery Ticket Hypothesis剪枝
Lottery Ticket Hypothesis(LTH)是由 Frankle 和 Carbin 在 2019 年提出的一种剪枝方法,其核心思想是神经网络中存在可以单独训练的小型子网络(即"中奖票"),这些子网络可以在保持原始模型性能的情况下有效地训练。通过找到这些子网络,我们可以实现大模型的剪枝,从而减少模型的计算复杂度和存储需求。原创 2024-10-30 20:37:20 · 1483 阅读 · 0 评论 -
从零学习大模型(十)-----剪枝基本概念
Transformer层剪枝的核心思想是评估每个层、注意力头或权重对模型性能的重要性,然后根据评估结果去掉那些对模型性能贡献较小的部分。Transformer层剪枝是一种针对Transformer模型(如BERT、GPT等)中的自注意力模块和前馈网络进行剪枝的方法,旨在减少模型的参数量和计算开销。在这种方法中,模型的剪枝对象通常是具有特定结构的部分,例如卷积神经网络中的整个滤波器或通道,而不是单个权重参数。非结构化剪枝是一种精细化的剪枝方法,通过移除神经网络中的单个权重连接来减少模型的参数数量。原创 2024-10-30 20:36:14 · 1564 阅读 · 1 评论 -
从零学习大模型(八)-----P-Tuning(上)
P-Tuning是一种参数高效的微调方法,旨在通过引入可学习的提示(Prompt)来改进预训练语言模型在特定任务中的表现。与传统的全参数微调相比,P-Tuning 只需要微调少量的额外参数,使得模型在执行任务时更加高效,并且能够适应多种下游任务。在 P-Tuning 中,提示(Prompt)是一些附加到输入上的可学习向量,这些向量作为模型的输入,帮助调整模型的行为。通过对这些可学习提示进行训练,模型可以在特定任务上获得较好的表现,而不需要对原有的大量模型参数进行更新。原创 2024-10-29 20:38:44 · 1416 阅读 · 0 评论 -
从零学习大模型(九)-----P-Tuning(下)
P-Tuning是一种参数高效的微调方法,旨在通过引入可学习的提示(Prompt)来改进预训练语言模型在特定任务中的表现。与传统的全参数微调相比,P-Tuning 只需要微调少量的额外参数,使得模型在执行任务时更加高效,并且能够适应多种下游任务。在 P-Tuning 中,提示(Prompt)是一些附加到输入上的可学习向量,这些向量作为模型的输入,帮助调整模型的行为。通过对这些可学习提示进行训练,模型可以在特定任务上获得较好的表现,而不需要对原有的大量模型参数进行更新。原创 2024-10-29 20:40:06 · 1243 阅读 · 0 评论 -
从零学习大模型(七)-----LoRA(下)
LoRA(Low-Rank Adaptation)是一种参数高效的微调技术,旨在降低微调大规模预训练模型的存储和计算成本。**其核心思想是通过对模型的特定参数进行低秩分解,仅对少量附加参数进行训练,从而完成任务适应,而无需更新整个模型的权重。**这种方法通过引入额外的低秩矩阵来适应新的任务,保持了预训练模型的核心知识,使其更具灵活性和高效性。原创 2024-10-25 16:02:40 · 1901 阅读 · 0 评论 -
从零学习大模型(七)-----LoRA(中)
LoRA(Low-Rank Adaptation)是一种参数高效的微调技术,旨在降低微调大规模预训练模型的存储和计算成本。**其核心思想是通过对模型的特定参数进行低秩分解,仅对少量附加参数进行训练,从而完成任务适应,而无需更新整个模型的权重。**这种方法通过引入额外的低秩矩阵来适应新的任务,保持了预训练模型的核心知识,使其更具灵活性和高效性。原创 2024-10-25 15:59:33 · 1570 阅读 · 0 评论 -
从零学习大模型(五)-----提示学习(Prompt Engineering)
提示学习是一种通过向大型语言模型(如GPT-3、GPT-4)提供清晰明确的提示(Prompt),以期望获得特定输出的技术。提示可以理解为指令或问题,模型基于这些提示来产生回应或完成任务。这种方法使得模型在不需要完全重新训练的情况下,通过输入设计引导模型行为,解决不同的任务。原创 2024-10-24 20:23:54 · 2913 阅读 · 0 评论 -
从零学习大模型(六)-----LoRA(上)
在大规模语言模型的实际应用中,微调需要耗费巨大的计算资源和内存,因为要微调整个模型的参数(通常有数十亿甚至数千亿个参数)。**LoRA通过只训练新增的低秩矩阵,使得训练过程变得更加轻量**,同时减少了存储需求。这在许多硬件资源受限的场景中尤为有用。原创 2024-10-24 20:25:56 · 952 阅读 · 0 评论 -
从零学习大模型(四)-----代码实现交替的稠密与本地稀疏注意力模式
【代码】从零学习大模型(四)-----代码实现交替的稠密与本地稀疏注意力模式。原创 2024-10-22 19:31:18 · 299 阅读 · 0 评论 -
从零学习大模型(三)-----GPT3(下)
可逆标记化的目标是将文本分解成标记(token)以供模型处理,同时保持信息的完整性,使得标记化后的数据在反向操作(去标记化)时能够还原为原始文本。这意味着,标记化和去标记化是可逆的过程,可以实现无损的数据还原。在自然语言处理中,文本通常需要转换为可以由模型处理的形式(例如标记索引),这就需要将原始的自然语言转化为标记。一般的标记化过程可能会导致部分信息的丢失,比如去掉标点符号、合并相似的单词等,而可逆标记化则确保即使经过标记化处理,原文本也能精确地被还原。梯度噪声规模的概念。原创 2024-10-22 19:34:22 · 1532 阅读 · 0 评论 -
从零学习大模型(二)-----AG_NEWS上训练自回归Transformer
有兴趣的同学可以在自己的电脑上跑跑看看实验结果。原创 2024-10-21 20:50:56 · 433 阅读 · 0 评论 -
从零学习大模型(一)-----GPT3(上)
GPT-3(Generative Pre-trained Transformer 3)是一种大型自回归语言模型,由OpenAI团队训练和发布。GPT-3 拥有1750亿个参数,是当时发布的最大的非稀疏(non-sparse)语言模型之一。其参数规模是前一代模型(如GPT-2)的10倍以上。GPT-3的目标是通过大规模的参数量和广泛的预训练来实现对多种语言任务的few-shot学习,即通过少量示例而无需额外的任务特定训练或微调来完成下游任务。原创 2024-10-21 20:48:15 · 3107 阅读 · 0 评论 -
LLAMA2入门(一)-----预训练
Llama 2 是预训练和微调的LLM系列,Llama 2 和 Llama 2-Chat 模型的参数规模达到 70B。Llama 2-Chat 模型专门为对话场景进行了优化。这是一个系列的文章,会分别从LLAMA2的预训练,微调,安全性等方面进行讲解。原创 2024-10-19 15:30:39 · 1316 阅读 · 0 评论 -
LLAMA2入门(三)-----微调
在 Llama 2 的监督微调(Supervised Fine-Tuning, SFT)阶段,研究团队对模型进行了进一步的调优,以提升其生成对话和其他任务的表现。以下是 SFT 过程的详细讲解:原创 2024-10-20 13:47:24 · 1810 阅读 · 0 评论 -
LLAMA2入门(二)-----Transformer基础知识
学习LLAMA2的时候,你先要知道关于transformer的基础知识哦,应为它的基本模型就是transformer原创 2024-10-20 13:43:25 · 1151 阅读 · 0 评论
分享