
AI系统 算法LLM
文章平均质量分 64
生活需要深度
这个作者很懒,什么都没留下…
展开
-
看图学大模型:Transformers 的前生今世(中)
至此,Transformers 大部分零件已经凑齐, Let's Roll Out.Transformers 也是为了机器翻译设计的,回顾一下 Transformers 之前的机器翻译模型,大多还是 RNN Encoder-Decoder 的范式,但是这样也就继承了 RNN 的所有问题。通过堆叠 RNN,扩大参数量确实也取得了一定的效果,比如 Seq2Seq。但是 Bahdanau Attention 出现后,让研究人员看到了另外一种可能。原创 2024-11-19 09:24:56 · 682 阅读 · 0 评论 -
Llama 3模型架构 大模型(二)
Llama 3模型基于标准的Transformer架构进行了多项改进,包括更高的效率和更好的性能。上下文长度: 8192(LLaMA-1和LLaMA-2的上下文长度分别为2048, 4096)本部分整理文档里面这部分内容外加两个内容需要整理一个具体内部实现。嵌入层: 将输入的token转换为固定维度的嵌入表示。前馈网络(FFN): 包含激活函数和两层全连接网络。接下来,我们详细探讨Llama 3架构的主要特点。模型类型: 基于解码器的Transformer。自注意力层: 包含多头自注意力机制和归一化。原创 2024-11-19 09:11:53 · 420 阅读 · 0 评论 -
【AI大模型】Embedding模型解析 文本向量知识库的构建和相似度检索
在大模型中,"embedding"指的是将某种类型的输入数据(如文本、图像、声音等)转换成一个稠密的数值向量的过程。这些向量通常包含较多维度,每一个维度代表输入数据的某种抽象特征或属性。Embedding 的目的是将实际的输入转化为一种格式,使得计算机能够更有效地处理和学习在这里插入图片描述文本Embedding在自然语言处理(NLP)中,文本embedding是一个常见的概念。是将文字或短语转换成数值向量的过程。这些向量捕捉了单词的语义特征,例如意义、上下文关系等。原创 2024-10-22 21:24:55 · 1540 阅读 · 0 评论 -
轻松理解Transformer中的Q,K,V,O矩阵
标量(Scalar)是零维张量,如一个数值 5。向量(Vector)是一维张量,如 [1, 2, 3]。矩阵(Matrix)是二维张量,如 [[1, 2], [3, 4]]。高维张量是三维及以上的张量,如 [[[1], [2]], [[3], [4]]]。解码器堆栈输出一个浮点向量。我们如何将其转换为一个单词?这是最后一个线性层的工作,后面跟着一个 Softmax 层。线性层是一个简单的全连接神经网络,它将解码器堆栈产生的向量投影到一个更大的向量中,称为 logits 向量。原创 2024-10-22 21:23:11 · 2904 阅读 · 0 评论 -
Transformer原理详解(图解完整版附代码)
论文名:Attention is all you need针对问题:RNN等序列模型不能并行运行,利用完全基于自注意力机制的自编码器去训练利用layer-normal:助于避免训练过程中的梯度消失问题,提高模型的稳定性。:对自注意力机制中 除以QKT除以dk ,以防止乘机过大,如下。注意力机制公式位置编码:由于 Transformer 不使用递归或卷积,它通过位置编码来加入序列中元素的位置信息。自注意力机制:它允许模型在处理序列的每个元素时同时考虑序列中的所有其他元素,从而捕捉元素之间的关系。原创 2024-10-22 21:21:46 · 5123 阅读 · 0 评论 -
注意力机制综述(图解完整版附代码)
SENet示例图如上图所示,数据X经过卷积操作后,得到 U , U 的通道数用 C 表示, H×W 表示一个通道上的长和宽;此后,SENet引入了一个Squeeze模块 Fsq(⋅) 和一个Excitation模块 Fex(⋅,W)。Fsq(⋅) 通过全局平均池化操作将每个通道的特征图转化为一个标量值,简单地说,就是用全局平均池化将每个通道上的数据进行压缩,压缩成一个标量值,即得到一个 1×1×C 的矩阵。然后, Fex(⋅,W) 通过激活函数。原创 2024-10-22 21:19:49 · 2991 阅读 · 0 评论 -
大模型KVCache关键技术解析
水电费递四方速递防守打法打撒方法是打发。原创 2025-03-23 12:15:45 · 109 阅读 · 0 评论 -
大模型发展综述
第三方第三方第三方手动阀。原创 2025-03-23 12:14:24 · 123 阅读 · 0 评论 -
llma大模型代码实现
是的范德萨范德萨防守打法打撒。原创 2025-03-23 12:13:26 · 82 阅读 · 0 评论 -
大型语言模型(LLM)概述
2. 续写: 模型开始根据你给的开头, 一个接一个地生成新的词, 每生成一个新词, 它都会把前面已经生成。1. 预填充: 你给模型一个开头, 可以是几个词或一个句子,这就是"预填充"的内容。这个过程就叫"续写"。输入:"从前有座山, 山里有座庙,庙里" >>> 输出:"有"输入:"从前有座山, 山里有座庙,庙" >>> 输出:"里"输入:"从前有座山, 山里有座庙" >>> 输出:","输入:"从前有座山, 山里有座庙," >>> 输出:"庙"输入:"从前有座山, 山里有座" >>> 输出:"庙"原创 2024-11-19 09:05:18 · 556 阅读 · 0 评论 -
LLM大模型基本概念
加水电费叫哦阿斯蒂芬。原创 2024-10-01 12:35:41 · 179 阅读 · 0 评论