
大模型LLMs组件系列
文章平均质量分 96
对Transformer架构大模型的组件进行总体介绍和单独详述,并辅以现有SOTA开源大模型的代码示例。
原地漫游
上海交大计算机学硕
展开
-
LLMs组件系列:Attention排列不变性与位置编码(超详细)
Transformer注意力可并行计算的特性既是其相较于RNN的优势,也使其丢失了时间步语义信息,所以位置编码 (positional encodings) 是Transformer这种并行结构必须要有的,否则机器就会已读乱回。但位置编码原理是什么,工程上怎么实现呢?网上有许多讲解位置编码的方案,但很多都为了文章篇幅而舍弃掉一些前置信息,如果没有基础看起来还是比较吃力的。为此,本文用篇幅换取详细度,介绍详细介绍了当前四种主流的位置编码方案,包看懂的。原创 2024-08-25 15:29:09 · 2211 阅读 · 0 评论 -
大模型LLMs组件系列:激活函数
💡 正如在全连接神经网络那篇文章中介绍Perception时提到的,人工神经网络中的激活函数(activation function)是对生物神经元达到膜电位阈值后发射常数脉冲的模拟,因此从神经生物学视角来看,1958年的感知机Perception中使用的非线性的0-1阶跃/符号函数是最理想的,但在数学层面却不是。阶跃函数不连续不可导,在BP反向传播中会带来巨大的计算问题;此外,对于线性神经网络而言,激活函数又承载着帮助线性结构拟合非线性规律、规范输出范围的功能,还得重点关注梯度问题。原创 2024-08-22 22:10:10 · 724 阅读 · 0 评论 -
大模型LLMs组件系列:大模型组件概述
Transformer是Google在2017年底写的论文中举例展示的Seq2Seq翻译模型的名称,该翻译模型采用了Encoder-Deocoder架构,但相较于之前以RNN为内核的模型,Transformer的核心卖点是注意力Attention机制,基本结构是Transformer Block Stack堆叠,每个Block中都有一组Attention模块(负责注意力)和MLP模块(负责记忆和表示)。很快,该架构掀起了深度学习的新浪潮,此后拥有类似注意力机制的模型都叫做Transformer架构。原创 2024-08-22 19:35:04 · 990 阅读 · 0 评论 -
大模型LLMs组件系列:全连接网络FCN与典型代表MLP
如果你也疑惑:大模型中Attention模块后的模块到底叫全连接网络FCN,多层感知机MLP,还是前馈网络FNN,怎么不同大模型工程文件里对这层的命名都不统一?这个层和线性层有什么区别?这个模块有什么作用?激活函数又出现在大模型中哪里呢?激活函数的不同变体以及主流开源大模型的选择是什么?混合专家MoE是怎么实现的?那么这篇文章就是为你而写的。原创 2024-08-22 16:43:00 · 1076 阅读 · 0 评论 -
大模型LLMs组件系列:向量表示与词嵌入Embedding
大模型中的Embedding要做的就是将分词后以整数index标识的最小词元嵌入到一个语义空间中。什么是语义空间?为什么要嵌入语义空间呢?这和经典机器学习的特征工程有什么关系?有哪些词向量的表征形式?词嵌入模型和大模型的Embedding是一回事儿吗?特征和表示学习有什么关系?如果你也有类似疑问,Ok,下面进入正题。原创 2024-08-21 21:01:18 · 1473 阅读 · 0 评论 -
大模型LLMs组件系列:分词法Tokenization的起源与发展
分词Tokenization和嵌入Embedding(表示学习Representation Learning中的Word Representation)是将符号系统的自然语言转变为数值系统以供计算机处理的前提。而自然语言具有组合复杂、长短不定等灵活特性,因此首先必须对这一符号系统进行切分,这一切分的最小单元就是词元,也就是耳熟能详的token。将长且复杂的自然语言文本按照某一策略分割为最小词元的集合后依然不够,还需要对其进行数值化,以便计算机处理。原创 2024-08-19 14:10:08 · 1084 阅读 · 0 评论 -
大模型LLMs组件系列:深入浅出解析注意力Attention机制
💡 注意力机制萌芽于上世纪80年代,最早是CNN视觉检测领域的技术,灵感来源于生物注意力,目的是从纷繁的信息中提取高价值信息,舍弃低价值信息。2014年,注意力机制被用于NLP领域,并于2017年开始作为Transformer架构的核心机制几乎一统NLP领域方法论。原创 2024-08-20 19:09:20 · 1767 阅读 · 0 评论