LLM
文章平均质量分 69
Guofu_Liao
Lead the change, innovate the future
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大语言模型---Dropout 的定义;Dropout 减少过拟合的原因;Dropout 的实现
Dropout 是一种简单而有效的正则化技术,通过在每次训练迭代中随机丢弃(即屏蔽)一部分神经元,强制模型在没有某些特定神经元参与的情况下学习,从而降低对特定神经元的依赖性。机制:在训练过程中,每个神经元以一定概率 p(如 p=0.5)被随机“丢弃”(设置为 0),即它的输出不会被传播到下一层。在推理过程中,Dropout 被关闭,所有神经元都参与计算。原创 2024-12-01 13:33:54 · 1501 阅读 · 0 评论 -
大语言模型---Llama不同系列的权重参数文件提取;Llama-7B权重文件提取;Llama-8B权重文件提取;主要代码功能解析
在应用场景和硬件需求上各有不同,其权重文件的提取方式也略有差异。本文将通过代码讲解如何获取和提取 Llama 7B 和 8B 的权重参数文件。save_weight_int(int_weight: torch.Tensor, path) 函数。Llama 系列模型(Meta 发布的大语言模型)在开源社区广受欢迎,不同版本(作用:将权重量化为 int32 数据,并以 .bin 格式保存到指定路径。遍历 model.model.layers 的所有参数。原创 2024-11-26 11:33:06 · 2020 阅读 · 0 评论 -
大语言模型---Llama7B和Llama8B的区别;模型参数量;权重文件的不同;嵌入层权重的不同;输入序列长度的不同;应用场景
LLaMA(Large Language Model Meta AI)是由Meta开发的一系列语言模型,其中不同版本的参数量(如7B、8B等)反映了模型的规模和能力。原创 2024-11-24 17:09:39 · 2809 阅读 · 0 评论 -
大语言模型---RewardBench 介绍;RewardBench 的主要功能;适用场景
是一个专门用于评估 Reward Models(奖励模型) 的公开平台,旨在衡量模型在多种任务上的性能,包括 能力、可靠性、安全性 和推理能力。这一工具由 Allen Institute 提供,基于 Hugging Face 的 Spaces 平台,聚焦于 Reward Model 的对比和优化。原创 2024-11-23 14:43:51 · 1434 阅读 · 0 评论 -
大语言模型---通过数值梯度的方式计算损失值L对模型权重矩阵W的梯度;数值梯度的公式;数值梯度计算过程
对模型权重矩阵的梯度计算,而不是传统的链式法则进行梯度计算。如果想要理解整体计算方式,先明白。后损失函数的变化,我们可以估算出损失函数对该参数的敏感程度(梯度)。数值梯度通过有限差分法近似计算梯度,对权重矩阵。其中,每个参数的含义在下文中有讲解。,本文主要介绍大语言模型中使用。这个公式的含义是:通过观察。,通过公式了解其和权重矩阵。原创 2024-11-22 21:02:38 · 1683 阅读 · 0 评论 -
大语言模型---什么是注意力机制?LlaMA 中注意力机制的数学定义
(1) 注意力机制公式。原创 2024-11-22 20:06:46 · 1511 阅读 · 0 评论 -
大语言模型---LoRA中损失值的计算
Llama-7B模型的LoRA微调训练中,通过使用Cross-Entropy Loss来度量模型输出的预测分布和真实标签分布之间的距离,来衡量模型的准确性。模型最后一层MLP的输出与模型词表权重进行点乘计算生成一个行数(nvocab)为32,000 ,列数(seq)为4096的 logits 矩阵,每个元素对应词汇表中的一个词,表示生成该词的“分数”。,使得logits矩阵每个位置上的元素转化为一个概率值。的元素,在该矩阵中,正确词的位置为1,其余为0。,表示模型在该位置生成词的可能性。原创 2024-11-22 14:13:57 · 2551 阅读 · 0 评论 -
什么是Tensor???为什么人工智能领域论文中经常出现这个名词
tensor,中文叫张量。Tensor实际上就是一个多维数组(multidimensional array)。而Tensor的目的是能够创造更高维度的矩阵、向量。原创 2024-08-11 21:56:52 · 622 阅读 · 0 评论 -
大语言模型---梯度的简单介绍;梯度的定义;梯度计算的方法
梯度是函数在某点变化最迅速的方向(对多维空间是一个向量,表示函数对每个变量的偏导数)。在一维情况下,梯度就是函数的导数对于多维输入,梯度是对每个输入变量计算的偏导数组成的向量。原创 2024-11-22 01:16:36 · 1065 阅读 · 0 评论 -
大语言模型---ReLU函数的计算过程及其函数介绍
注意:这里的公式对输入进行缩放,可以忽略𝛾的值;**公式描述:**首先,将输入 𝑍缩放𝛾倍,然后对其进行四舍五入,左右两边进行Hadamard 乘积,使得两个同维度的矩阵或张量进行逐元素相乘。原创 2024-11-22 00:01:04 · 670 阅读 · 0 评论 -
大语言模型中Softmax函数的计算过程及其参数描述
注意:这里的公式对输入进行缩放,可以忽略𝛾的值;原创 2024-11-22 00:00:49 · 607 阅读 · 0 评论 -
大语言模型---LoRA简介;LoRA的优势;LoRA训练步骤;总结
LoRA(Low-Rank Adaptation)是一种用于高效微调大模型的技术,它通过在已有模型的基础上引入低秩矩阵来减少训练模型时所需的参数量和计算量。具体来说,LoRA在训练模型时将模型中的某些权重矩阵分解为两个低秩矩阵A和B,并对这些矩阵进行微调(finetune),而模型的其他部分保持冻结不变。原创 2024-11-21 23:38:08 · 1054 阅读 · 0 评论 -
大语言模型---Rewar Model的输出(不包含训练);介绍;模型推理的输出过程方案
奖励函数模型 (Reward Model) 是人工智能 (AI) 中的一种方法,模型因其对给定提示的响应而获得奖励或分数。现在的文章清一色的讲解RM的训练,但是没有讲解RM是如何输出一个分数的。RM通常采用Llama-7B模型,本文也沿用这一模型,同时模型的推理计算过程作为已知的知识,只讲解推理最后的输出部分。本文章先介绍传统Llama模型原始Token输出过程,再讲解RM的输出。以作为对比更好的学习。原创 2024-11-16 22:00:13 · 489 阅读 · 0 评论
分享