
大模型
文章平均质量分 86
CS创新实验室
致力于计算机、人工智能相关领域的研发和教学
展开
-
LLM(15):捕捉数据依赖关系的注意力机制
需要注意的是,此图展示了注意力背后的基本思想,并未具体描绘 Bahdanau 机制的精确实现,该机制是一种 RNN 方法,超出了这里的范围。因此,研究人员在 2014 年开发了 Bahdanau 注意力机制(以相关论文的第一作者命名),该机制改进了编码器-解码器 RNN,使得解码器可以在每个解码步骤中选择性地访问输入序列的不同部分,如图 3.5 所示。自注意力是 transformer 中的一种机制,通过允许序列中的每个位置与其他所有位置进行交互并衡量其重要性,从而计算出更高效的输入表示。原创 2025-04-10 08:05:51 · 519 阅读 · 0 评论 -
LLM(14):模型的长序列问题
如果你不熟悉 RNNs,不用担心——不需要详细了解 RNN 的工作原理就能跟随此处的讨论,这里的重点放在编码器-解码器的一般概念上。编码器在每一步更新其隐藏状态(隐藏层中的内部值),试图将整个输入句子的意思传给最后一个隐藏状态中,如图 3.4 所示。虽然我们不需要了解这些编码器-解码器结构的 RNN 的内部工作原理,但这里的关键思想是,编码器部分将整个输入文本处理成一个隐藏状态(记忆单元)。编码器-解码器 RNN 的一个重大局限性在于,在解码阶段,RNN 无法直接访问编码器中较早的隐藏状态。原创 2025-04-08 08:49:35 · 369 阅读 · 0 评论 -
LLM(13):词编码后的位置
解决词嵌入向量中不同位置的词的 token 在向量中位置相同的问题原创 2025-04-04 10:32:11 · 1137 阅读 · 0 评论 -
LLM(12):创建 token 嵌入
为大模型训练准备 token 嵌入向量原创 2025-03-30 14:37:49 · 1142 阅读 · 0 评论 -
LLM(11):使用滑动窗口进行数据采样
如图 2.13 所示。)指的是 LLM 将接收的 input,而箭头右边的 token ID 代表 LLM 应预测的 target 的 token ID。内存占用:较小的batch size意味着在内存中同时处理的数据量减少,这对于内存有限的设备较为友好,可以避免因内存不足而导致的程序崩溃,还可能允许使用更大的模型或更复杂的网络结构。如果我们比较第一和第二批次,可以看到第二批次的 token ID 向右移动了一位(例如,第一批次输入中的第二个 ID 是 367,这是第二批次输入的第一个 ID)。原创 2025-03-26 11:09:04 · 1186 阅读 · 0 评论 -
LLM(10):字节对编码(BPE)
介绍一种BPE方案原创 2025-03-25 15:34:55 · 637 阅读 · 0 评论 -
LLM(9):处理特殊 token
继续处理 token,本文介绍一种重要的方法原创 2025-03-24 11:31:29 · 969 阅读 · 0 评论 -
LLM(8):将 token 转换为 token ID
然后,这些单个的 token 会被按字母顺序排序,并去除重复的 token,然后聚合到一个词汇表中,该词汇表定义了从每个唯一的 token 到一个唯一整数值的映射。从一个新的文本样本开始,我们对文本进行 token 化,并使用词汇表将文本 token 转换为 token ID。为此,可以创建词汇表的逆版本,该逆版本将 token ID 映射回相应的文本 token。因此,它不包含在词汇表中。方法接收样本文本,将其分割成单独的 tokens,并通过词汇表将这些 tokens 转换为 token IDs。原创 2025-03-21 09:28:00 · 576 阅读 · 0 评论 -
LLM(7):文本分词 token 化
将文本转换为 token 的简单示例原创 2025-03-20 09:11:55 · 736 阅读 · 0 评论 -
LLM(6):理解词嵌入
解释词嵌入的含义和作用原创 2025-03-19 09:02:49 · 922 阅读 · 0 评论 -
LLM(5):了解 GPT 架构
概述 GPT 架构原创 2025-03-18 08:27:16 · 854 阅读 · 0 评论 -
LLM(4):了解训练大模型的数据集
简要介绍用于训练大模型的数据集特点。原创 2025-03-17 08:30:50 · 419 阅读 · 0 评论 -
LLM(3): Transformer 架构
大多数现代的大规模语言模型(LLMs)依赖于 Transformer 架构,这是一种在 2017 年的论文《注意力就是你所需要的》(https://arxiv.org/abs/1706.03762)中提出的深度神经网络架构。为了理解 LLMs,必须要先了解最初的 Transformer,它是为机器翻译任务而开发的,用于将英文文本翻译成德文和法文。简化版的 Transformer 架构如图 1.4 所示。图 1.4简化版的原始 Transformer 架构图示,它是一个用于语言翻译的深度学习模型。原创 2025-03-16 12:56:58 · 1015 阅读 · 0 评论 -
LLM(2):准备构建 LLM
在一文中,对 LLM 做了初步介绍,本文接续前一篇文章的内容,简要介绍 LLM 的应用和构建过程。原创 2025-03-14 10:49:57 · 1045 阅读 · 0 评论 -
LLM(1):了解大语言模型
在 LLMs 出现之前,传统方法擅长于像电子邮件垃圾信息分类和简单的模式识别这样的分类任务,这些任务可以通过手工编写的规则或更简单的模型来捕捉。现代 LLMs 与早期 NLP 模型之间的另一个重要区别是,早期的 NLP 模型通常是为特定任务设计的,比如文本分类、语言翻译等。LLMs 背后的成功可以归因于许多 LLMs 所基于的 transformer 架构以及用于训练 LLMs 的巨大数据量,这使它们能够捕捉到各种语言细微差别、上下文和模式,这些如果手动编码将极具挑战性。原创 2025-03-12 12:46:56 · 343 阅读 · 0 评论