- 博客(134)
- 收藏
- 关注
原创 【大模型LLM面试合集】有监督微调_微调
通常,大型模型和较大的批次大小可能需要较大的显存容量。建议在进行微调之前评估和测试所用计算平台的显存容量,并根据实际情况进行调整。
2025-03-14 14:17:02
1048
原创 【大模型LLM面试合集】有监督微调_基本概念
这样,模型就可以适应新的任务,计算开销更少,标记的例子也更少。尽管PEFT是一个相对较新的概念,但自从引入迁移学习以来,更新最后一层模型已经在计算机视觉领域得到了实践。即使在NLP中,静态和非静态词嵌入的实验也很早就进行了。参数高效微调旨在提高预训练模型(如BERT和RoBERTa)在各种下游任务上的性能,包括情感分析、命名实体识别和问答。它在数据和计算资源有限的低资源设置中实现了这一点。它只修改模型参数的一小部分,并且不容易过度拟合。参数高效的微调。
2025-03-14 14:14:39
728
原创 【大模型LLM面试合集】分布式训练_总结
数据并行,由于其原理相对比较简单,是目前使用最广泛的分布式并行技术。。我们首先以PyTorch 数据并行的发展(DataParallel、DistributedDataParallel、FullyShardedDataParallel)为主线进行讲述了数据并行的技术原理。同时,也简述了 DeepSpeed 中的增强版数据并行ZeRO。
2025-03-13 10:29:57
921
原创 【大模型LLM面试合集】分布式训练_moe并行
本文简要介绍了目前业界的一些 MOE 并行方案。如果说Transformer结构使得模型突破到上亿参数量,那么稀疏 MoE 结构可以在不显著增加计算成本的情况下,使模型参数量进一步突破,达到上千亿、万亿规模。虽然,1990年左右 MOE 的概念就已经出现了;但是可以预见,MOE 将在通往AGI的道路上扮演越来越重要的角色。
2025-03-13 10:26:22
1169
原创 【大模型LLM面试合集】分布式训练_多维度混合并行
本文主要讲解了常见的大模型分布式并行技术的组合策略,同时,也讲述了目前业界的一些大模型所使用的并行策略,具体如下表所示。模型DPTPPPZeRO StageGPUsFP16/BF16Bloom-176B8412ZeRO-1384 张 A100 80GBBF161928ZeRO-21,536 张 Ascend 910 32GBFP16GLM-130B2448ZeRO-1768 张 A100 40GFP16OPT-175B1248✅。
2025-03-02 10:00:00
566
原创 【大模型LLM面试合集】分布式训练_自动并行
本文介绍了自动并行技术在深度学习中的应用,旨在简化分布式并行策略选择,分全自动与半自动两种模式。Mesh-TensorFlow通过给张量各维命名,将设备视为矩阵,实现任意维度分割,但需重写模型且不支持自动搜索最优布局;GSPMD采用张量分片注解,在XLA基础上统一实现多种并行策略;FlexFlow构建SOAP搜索空间,通过执行模拟器评估策略性能并自动选优;Alpa则融合算子内外并行,利用动态规划和整数规划划分流水线与细化分片,成为自动并行的集大成者。
2025-03-02 10:00:00
738
原创 【大模型LLM面试合集】分布式训练_张量并行
本文主要针对 Megatron-LM 和 Colossal-AI 的张量并行方案进行了讲解。其中,Megatron-LM 提出了一种高效的一维(1D)张量并行化实现。这种方法虽然将参数划分到多个处理器上,但每个处理器仍需要存储整个中间激活,在处理大模型时会消耗大量的显存空间。此外,由于仅采用1维矩阵划分,在每次计算中,每个处理器都需要与其他所有处理器进行通信;因此,通信成本会随并行度增高而激增。显然,1维张量并行已无法满足当前超大AI模型的需求。
2025-03-01 10:00:00
1638
原创 【大模型LLM面试合集】分布式训练_序列并行
总的来说,Colossal-AI 的序列并行是为了打破单设备上序列长度的限制。而 Megatron-LM 的序列并行是在显存上面下了功夫,可以用更少的设备去运行大模型。除此之外,从文章细节里面可以看到,部分的计算的冗余被消除了,且重叠了一部分的通信,使得设备可以花更多的时间用于计算上面。虽然,Colossal-AI 和 Megatron-LM 都有序列并行,但是两者解决的问题、方法都不一样。除此之外,在Pytorch中,也已经支持序列并行了。
2025-03-01 10:00:00
1567
原创 【大模型LLM面试合集】分布式训练_流水线并行
所谓流水线并行,就是由于模型太大,无法将整个模型放置到单张GPU卡中;因此,将模型的不同层放置到不同的计算设备,降低单个计算设备的显存消耗,从而实现超大规模模型训练。如下图所示,模型共包含四个模型层(如:Transformer层),被切分为三个部分,分别放置到三个不同的计算设备。即第 1 层放置到设备 0,第 2 层和第三 3 层放置到设备 1,第 4 层放置到设备 2。相邻设备间通过通信链路传输数据。
2025-02-07 09:00:00
1502
原创 【大模型LLM面试合集】分布式训练_显存问题
大模型也分为,一般模型的规格会体现在模型的名称上,例如 LLaMA2-13b,13b 就是其模型参数量的大小,意思是 130亿的参数量。大模型的文件大小与其参数量有关,通常大模型是以半精度存储的, Xb 的模型文件大概是 2X GB多一些,例如 13b 的模型文件大小大约是 27GB 左右。
2025-02-06 09:00:00
333
原创 【大模型LLM面试合集】分布式训练_数据并行
本文主要讲解了大模型分布式训练并行技术的数据并行,并以Pytorch为主线讲解了DP、DDP、FSDP三种不同的数据并行方案。单进程多线程模式,由于锁的机制导致线程间同步存在瓶颈。使用普通的All-Reduce机制,所有的卡需要将梯度同步给0号节点,并由0号节点平均梯度后反向传播,再分发给所有其他节点,意味着0号节点负载很重。由于第二点的原因,导致0号GPU通讯成本是随着GPU数量的上升而线性上升的。不支持多机多卡。目前,由于性能问题,DP基本不用了。
2025-02-06 09:00:00
810
原创 【大模型LLM面试合集】分布式训练_概述
数据并行是最常见的并行形式,因为它很简单。在数据并行训练中,数据集被分割成几个碎片,每个碎片被分配到一个设备上。这相当于。每个设备将持有一个完整的模型副本,并在分配的数据集碎片上进行训练。在反向传播之后,模型的梯度将被全部减少,以便在不同设备上的模型参数能够保持同步。典型的数据并行实现:PyTorch DDP。
2025-02-05 17:02:00
973
原创 【大模型LLM面试合集】训练数据_数据格式
在这个示例中,(1代表正例,0代表负例)。每一行代表一个样本,第一列是输入数据,第二列是对应的标签。需要注意的是,具体的数据集格式可能会因任务类型、数据来源和使用的深度学习框架而有所不同。因此,在进行SFT训练时,建议根据具体任务和框架的要求来定义和处理数据集格式。
2025-02-05 16:52:50
1301
原创 【大模型LLM面试合集】大语言模型架构_解码策略(Top-k & Top-p & Temperatu)
在大模型训练好之后,如何对训练好的模型进行解码(decode)是一个火热的研究话题。一般给模型传入的解码参数如下所示。在自然语言任务中,通常使用一个预训练的大模型(比如GPT)来根据给定的输入文本(比如一个开头或一个问题)生成输出文本(比如一个答案或一个结尾)。为了生成输出文本,需要让模型逐个预测每个 token ,直到达到一个终止条件(如一个标点符号或一个最大长度)。在每一步,模型会给出一个概率分布,表示它对下一个单词的预测。
2025-02-05 16:48:41
769
原创 【大模型LLM面试合集】大语言模型架构_Transformer架构细节
训练上的意义:随着词嵌⼊维度d_k的增⼤, q * k 点积后的结果也会增⼤, 在训练时会将 softmax函数推入梯度⾮常⼩的区域, 可能出现梯度消失的现象, 造成模型收敛困难.数学上的意义: 假设q和k的统计变量是满⾜标准正态分布的独⽴随机变量, 意味着q和k满⾜均 值为0, ⽅差为1。** 那么q和k的点积结果就是均值为0, ⽅差为**dkd_kdk, 为了抵消这种⽅差被放⼤dkd_kdk** 倍的影响, 在计算中主动将点积缩放**1dkdk1。
2025-02-05 16:44:52
954
原创 「GAN 在 CIFAR-100 上的高质量图像生成:完整可复现代码与卓越实验成果」
生成对抗网络(GAN)是一种强大的深度学习框架,由两部分组成:生成器和判别器。生成器负责生成尽可能真实的图像,而判别器的任务是判断这些图像是否真实。在训练过程中,生成器和判别器通过博弈来提升各自的能力,最终达到生成器能够生成高质量图像的效果。在本实验中,我选择了。
2025-02-02 09:00:00
729
原创 用 Wide-ResNet 打出 79% 准确率!完整源码公开,一文带你复现 CIFAR-100 分类实验
ResNet(Residual Network)最早由微软研究院提出,通过使用残差结构(Residual Block)有效缓解了深度神经网络中出现的梯度消失或梯度爆炸等问题。同时,残差结构也让网络能在保持较深层数的同时依旧有良好的训练效果。是对 ResNet 的改进版本,论文提出可以在增加网络宽度(即 channel 数)而不是盲目加深网络深度的情况下,获得更强的表达能力和更好的性能表现。相比于很深的 ResNet,Wide-ResNet 通常能在较少的训练时间内取得相当甚至更高的准确率。
2025-02-02 09:00:00
1104
原创 【大模型LLM面试合集】大语言模型架构_MHA_MQA_GQA
GQA-N 是指具有 N 组的 Grouped Query Attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。而GQA-H具有与头数相等的组,等效于MHA。GQA介于MHA和MQA之间。GQA 综合 MHA 和 MQA ,既不损失太多性能,又能利用 MQA 的推理加速。不是所有 Q 头共享一组 KV,而是分组一定头数 Q 共享一组 KV,比如上图中就是两组 Q 共享一组 KV。
2025-02-01 20:35:33
1278
原创 【大模型LLM面试合集】大语言模型架构_llama系列模型
Alpaca是在LLaMA基础上使用52K指令数据精调的预训练模型,作者只用了不到600美元的成本训练出了该模型(数据$500 + 机器$100)。初步实验结果表明Alpaca可以达到与OpenAI text-davinci-003相匹敌的效果2023年7月,Meta推出了Llama-2开源大模型,并且推出了Llama-2-Chat对话模型与一代LLaMA主要区别体现在更多的训练数据、更⻓的上下文窗口、GQA技术等模型结构的变动主要是体现在GQA和FFN缩放上MHA改成GQA:整体参数量会有减少。
2025-02-01 20:27:10
1230
原创 【大模型LLM面试合集】大语言模型架构_llama 2代码详解
LLM(Large Language Model)应该是今年深度学习领域一项具有革命性的技术突破,因为ChatGPT3.5/4没有开源,所以本文选择Meta AI半开源的LLM 模型。
2024-11-06 09:00:00
1026
原创 【大模型LLM面试合集】大语言模型架构_llama3
Meta LLaMA3 强势发布,迄今为止功能最强大的公开可用的 LLM。此版本是在 15 万亿个 Token 上预训练的语言模型,具有 8B 和 70B 两种参数规模,可以支持广泛的用户场景,在各种行业基准上取得了最先进的性能,并提供一些了新功能,包括改进的推理能力,这些都是同时期最好的开源模型。除此之外,LLaMA3还有400B参数的模型正在训练中。
2024-11-06 09:00:00
830
原创 【大模型LLM面试合集】大语言模型架构_bert细节
当输入信息的维度 d 比较高,点积模型的值通常有比较大方差,从而导致 softmax函数的梯度会比较小。因此,缩放点积模型可以较好地解决这一问题。常用的Attention机制为加性模型和点积模型,理论上加性模型和点积模型的复杂度差不多,但是点积模型在实现上可以更好地利用矩阵乘积,从而计算效率更高(实际上,随着维度d的增大,加性模型会明显好于点积模型)。
2024-11-05 09:00:00
1030
原创 【大模型LLM面试合集】大语言模型架构_chatglm系列模型
三种预训练框架各有利弊,没有一种框架在以下三种领域的表现最佳:自然语言理解(NLU)、无条件生成以及条件生成。T5曾经尝试使用MTL的方式统一上述框架,然而自编码和自回归目标天然存在差异,简单的融合自然无法继承各个框架的优点。在这个天下三分的僵持局面下,GLM诞生了。。
2024-11-05 09:00:00
836
原创 【大模型LLM面试合集】大语言模型架构_token及模型参数
根据前面的实验我们知道,如果在tokens数量一定的数据集上做多epochs的模型训练,会影响模型的性能,降低模型的效果。这在预训练和下游任务都会产生影响。但是,随着模型的发展,高质量数据集的tokens数将很快用完。而采用正则技术虽然会影响模型训练效率,但是会降低这种影响。
2024-11-04 09:00:00
1023
原创 【大模型LLM面试合集】大语言模型架构_bert变种
原论文链接:RoBERTa 的全称是 Robustly optimized BERT approach。RoBERTa 是在 bert 的基础上做了一些改进,这些改进并不是设计什么新颖的结构,而是尽量使模型得到更充分的预训练,释放 bert 模型的潜力。另外还有一个是。做了上述改进之后,指标有所提升。
2024-11-04 09:00:00
1157
原创 【大模型LLM面试合集】大语言模型架构_激活函数
GeLU(Gaussian Error Linear Unit)是一种激活函数,常用于神经网络中的非线性变换。它在Transformer模型中广泛应用于FFN(Feed-Forward Network)块。下面是GeLU的计算公式:GeLUx0.5×x×1tanh2π×x0.044715×x3GeLUx0.5×x×1tanhπ2×x0.044715×x3)))其中,tanh()是双曲正切函数,sqrt()
2024-11-03 02:20:37
893
原创 【大模型LLM面试合集】大语言模型架构_tokenize分词
在使用GPT BERT模型输入词语常常会先进行tokenize ,tokenize的目标是把输入的文本流,切分成一个个子串,每个子串相对有完整的语义,便于学习embedding表达和后续模型的使用。tokenize有三种粒度:word/subword/char最常用的三种tokenize算法:BPE(Byte-Pair Encoding),WordPiece和SentencePieceBPE,即字节对编码。其核心思想在于将最常出现的子词对合并,直到词汇表达到预定的大小时停止。BPE是一种基于数据压缩算法
2024-11-03 02:11:18
970
原创 【大模型LLM面试合集】大语言模型架构_位置编码
绝对位置编码最原始的正余弦位置编码(即sinusoidal位置编码)是一种绝对位置编码,但从其原理中的正余弦的和差化积公式来看,引入的其实也是相对位置编码。优势: 实现简单,可预先计算好,不用参与训练,速度快。劣势: 没有外推性,即如果预训练最大长度为512的话,那么最多就只能处理长度为512的句子,再长就处理不了了。当然,也可以将超过512的位置向量随机初始化,然后继续微调。相对位置编码。
2024-10-26 10:00:00
1299
原创 【大模型LLM面试合集】大语言模型架构_LLM MoE :Switch Transformers
MoE,全称为Mixed Expert Models,翻译过来就是混合专家模型。MoE并不是什么最新技术,早在1991年的时候,论文就提出了MoE。模型规模是提升模型性能的关键因素之一,这也是为什么今天的大模型能取得成功。在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,往往比用更多的步数训练一个较小的模型效果更佳。MoE 的一个显著优势是它们能够在远少于 Dense 模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算条件下,可以显著扩大模型或数据集的规模。
2024-10-26 00:22:04
684
原创 【大模型LLM面试合集】大语言模型架构_MoE经典论文简牍
总结了一下笔者在阅读 MoE 相关文献时印象较深的几篇文章,上述所阅读的文献主要与NLP相关的,其实 MoE 在各个领域中的应用已经十分广泛。比如Google提出的多模态MoE模型——LIMoE:, ICLR’21MoE 的思想,其实十分符合 Google 提出的 Pathways 愿景,也更加符合通用人工智能的设计理念。虽然目前 MoE 的工作,多数都是开发“超级模型”,但是上面列举的一些工作也表明 MoE 的用途还有很多,可以启发很多方向上方法的改进。
2024-08-06 12:41:14
1009
原创 【大模型LLM面试合集】大语言模型架构_layer_normalization
为什么要进行BN呢?在深度神经网络训练的过程中,通常以输入网络的每一个mini-batch进行训练,这样每个batch具有不同的分布,使模型训练起来特别困难。Internal Covariate Shift (ICS) 问题:在训练的过程中,激活函数会改变各层数据的分布,随着网络的加深,这种改变(差异)会越来越大,使模型训练起来特别困难,收敛速度很慢,会出现梯度消失的问题。
2024-07-09 18:01:10
1071
原创 【大模型LLM面试合集】大语言模型架构_MoE论文
神经网络的吸收信息的容量(capacity)受限于参数数目。条件计算(conditional computation)**针对于每个样本,激活网络的部分子网络进行计算**,它在理论上已证明,可以作为一种显著增加模型容量的方法。在实际中,在牺牲少量计算效率的情况下,实现了1000 倍的模型容量(model capacity)的提升。引入了稀疏门控专家混合层(Sparsely-Gated Mixture-of-Experts Layer),包括数以千计的前馈子网络。
2024-07-09 17:57:43
1328
原创 【大模型LLM面试合集】大语言模型架构_attention
MHA(Multi-head Attention)是标准的多头注意力机制,h个Query、Key 和 Value 矩阵。MQA(Multi-Query Attention)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的是,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。GQA(Grouped-Query Attention)是分组查询注意力,
2024-07-08 22:28:53
1485
原创 【大模型LLM面试合集】大语言模型基础_Word2Vec
Word2Vec是google在2013年推出的一个NLP工具,它的特点是能够将单词转化为向量来表示,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。用词向量来表示词并不是Word2Vec的首创,在很久之前就出现了。最早的词向量采用One-Hot编码,又称为一位有效编码,每个词向量维度大小为整个词汇表的大小,对于每个具体的词汇表中的词,将对应的位置置为1。比如下面的5个词组成的词汇表,采用One-Hot编码方式来表示词向量非常简单,但缺点也是显而易见的,一方面实际使用的词汇表很大。
2024-07-08 22:05:34
1218
原创 【大模型LLM面试合集】大语言模型基础_NLP面试题
BERT(Bidirectional Encoder Representations from Transformers)是谷歌提出,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。BERT 只利用了 Transformer 的 encoder 部分。因为BERT 的目标是生成语言模型,所以只需要 encoder 机制。
2024-07-07 18:53:56
1431
原创 【大模型LLM面试合集】大语言模型基础_LLM为什么Decoder only架构
LLM 是 “Large Language Model” 的简写,目前一般指百亿参数以上的语言模型, 主要面向文本生成任务。跟小尺度模型(10亿或以内量级)的“百花齐放”不同,目前LLM的一个现状是Decoder-only架构的研究居多,像OpenAI一直坚持Decoder-only的GPT系列就不说了,即便是Google这样的并非全部押注在Decoder-only的公司,也确实投入了不少的精力去研究Decoder-only的模型,如PaLM就是其中之一。
2024-07-07 18:45:00
1227
原创 【大模型LLM面试合集】大语言模型基础_词向量
基于深度学习的词向量训练方法,具有算法简单通用,语料获取容易,泛化性好的优点。词向量在文本分析,文本摘要,情感分析等领域都是必须的预处理,可以大大提高自然语言处理的准确度。下面来看一个基于skip-gram的词向量训练的代码实现,这样就能够skip-gram算法有比较深刻的理解。此时训练词向量时,可以先基于一个已有的模型进行增量训练,这样就可以得到包含特定语料的比较准确的词向量了。工具,它可以进行词向量训练,加载已有模型进行增量训练,求两个词向量相似度,求与某个词接近的词语,等等。工具进行词向量模型训练。
2024-07-06 19:16:55
770
原创 【大模型LLM面试合集】大语言模型基础_句法分析
句法分析,任重而道远。随着深度学习在NLP中的使用,特别是本身携带句法关系的LSTM模型的应用,句法分析已经变得不是那么必要了。但是,在句法结构十分复杂的长语句,以及标注样本较少的情况下,句法分析依然可以发挥出很大的作用。句法分析也是自然语言处理中的基础性工作,它分析句子的句法结构(主谓宾结构)和词汇间的依存关系(并列,从属等)。语义依存关系分析,识别词汇间的从属、并列、递进等关系,可以获得较深层的语义信息。研究表明,很多情况下,单纯的bi-lstm,比基于句法分析树的tree-lstm效果更好。
2024-07-06 19:13:18
699
原创 【大模型LLM面试合集】大语言模型基础_词性标注
观测序列即为分词后的语句,隐藏序列即为经过标注后的词性标注序列。jieba可以在分词的同时,完成词性标注,因此标注速度可以得到保证。通过查询字典的方式获取识别词的词性,通过HMM隐马尔科夫模型来获取未登录词的词性,从而完成整个语句的词性标注。然后使用viterbi算法,利用得到的三个概率,将观测序列(分词后的语句)转化得到隐藏序列(词性标注序列)。这种方法比较简单,通俗易懂,但是不能解决一词多词性的问题,因此存在一定的误差。jieba分词就综合了两种算法,对于分词后识别出来的词语,直接从字典中查找其词性。
2024-07-05 18:20:00
1143
原创 【大模型LLM面试合集】大语言模型基础_jieba分词用法及原理
上篇文章分析了自然语言处理,特别是中文处理中,分词的几个主要难点。为了解决这些难点,提出了基于字符串匹配的算法和基于统计的分词算法。针对当前的几种分词引擎,对其分词准确度和速度进行了评估。jieba分词作为一个开源项目,在准确度和速度方面均不错,是我们平时常用的分词工具。本文将对jieba分词的使用方法以及原理进行讲解,便于在理解jieba分词原理的同时,加深对前文讲解的分词难点和算法的理解。
2024-07-05 18:13:26
1132
二手交易网站(完整源码可运行).rar
2025-02-01
「CIFAR-100 分类实战:从 ResNet 到 Wide-ResNet,一文分享我的开源代码与经验」
2025-02-01
利用生成对抗网络(GAN)进行CIFAR-100图像生成:实验与结果分享
2025-02-01
基于集成学习的 Amazon 用户评论质量预测 (数据集+代码+报告)
2024-07-07
AAAI 会议论文聚类分析(数据集+代码+报告)
2024-07-07
基于回归分析的大学综合得分预测(数据集+代码+报告)
2024-07-07
某闯关类手游用户流失预测(数据集+代码+报告)
2024-07-07
基于决策树的英雄联盟游戏胜负预测(数据+代码+报告包含)
2024-07-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人