对话大模型底层逻辑（一）Transformer模型的输入表示部分

最新推荐文章于 2024-10-01 10:51:10 发布

adaierya

最新推荐文章于 2024-10-01 10:51:10 发布

阅读量518

点赞数 6

CC 4.0 BY-SA版权

分类专栏：元宇宙文章标签： transformer 深度学习人工智能

本文链接：https://blog.youkuaiyun.com/adaiero/article/details/139999447

Transformer模型的输入表示部分是通过以下步骤生成的：

词汇表（Vocabulary）：需要建立一个包含所有可能词汇的词汇表。词汇表通常是按照词频排序的，以便模型能够更有效地学习常见的词汇。
分词（Tokenization）：文本数据被分割成一系列的词或子词（tokens）。这个过程可能涉及到单词分割、去除标点符号等。
索引化（Indexing）：将分词后的词转换为词汇表中的索引。每个索引代表词汇表中对应的词。
嵌入层（Embedding Layer）：索引化的词汇通过嵌入层转换为密集的向量表示。嵌入层通常是一个可学习的参数矩阵，其中每一行代表词汇表中一个词的向量表示。
位置编码（Positional Encoding）：由于Transformer模型没有递归和卷积层，无法自动捕获序列中的位置信息，因此需要手动添加位置编码。位置编码通常是基于正弦和余弦函数的固定模式，添加到嵌入向量中。

以下为一个简化的Python代码示例，说明如何实现上述步骤：

import torch
import torch.nn as nn
import torch.nn.functiona

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

adaierya

关注关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

LLM-大模型训练-步骤(一)：词表扩充【sentencepiece】

u013250861的博客

06-24

2401

如果欲了解扩充词表的具体方法，或者使用自己的词表对LLaMA tokenizer进行扩充，我们提供了代码。由于原版LLaMA对中文的支持非常有限，本项目在原版LLaMA的基础上进一步扩充了中文词表。我们所使用的在中文通用语料上训练的20K中文词表也一并放出，可以在。更多关于中文词表扩充的动机，可参考。

基于transformer实现机器翻译＜日——中＞

qq_64742510的博客

06-26

1857

SRC_VOCAB_SIZE = len(ja_vocab) # 源语言词汇表大小TGT_VOCAB_SIZE = len(en_vocab) # 目标语言词汇表大小EMB_SIZE = 512 # 词嵌入维度NHEAD = 8 # 头数（Transformer中的注意力头数）FFN_HID_DIM = 512 # 前馈神经网络隐藏层维度BATCH_SIZE = 16 # 批量大小NUM_ENCODER_LAYERS = 3 # 编码器层数。

参与评论您还未登录，请先登录后发表或查看评论

LLM 中的 vocabulary 和 embedding vector

Overman的代码世界

04-27

2133

本文介绍词汇表和嵌入向量

大语言模型(LLM)技术名词表(一)

XianxinMao的博客

03-01

925

大语言模型(LLM)技术名词表(一)

30分快速生成llm万能词表

最新发布

东方佑

10-01

310

第一部分代码的目的是从大量文本文件中提取分词并统计词频。第二部分代码基于词频统计结果，生成了一个截取的词汇表，用于后续的文本处理或生成任务，同时处理了低频词汇，确保了词汇表的实用性和扩展性。

NLP 面试八股：“Transformers / LLM 的词表应该选多大?“ 学姐这么告诉我答案

AI生成式技术曾小健

07-08

1351

然后作者还尝试了在 llama 的基础上扩大词表继续训练，扩大了词表后效果依然有提升。注意这里是完全从头训练的 GPT-3 Large 模型，模型的参数量为 760M。因为 vocabulary 变大后，Embedding 层变大，最后输出的。和训练代码中 vocabulary 的数量不一样， readme 中为。Baichuan 在技术报告里给出的一些模型的压缩率如下。的影响, 训练的信息不会丢失，推理的时候泛化能力也更强。151643，但是实际上代码里写的是 152064。

大语言模型底层逻辑解析

08-14

《大语言模型底层逻辑解析》大语言模型（LLM）是近年来人工智能领域的重大突破，它们不仅在自然语言处理（NLP）任务中表现出色，更成为了一种强大的基础设施，推动了生产力的飞跃。从最初的LM发展到LLM，语言模型...

大语言模型原理、底层逻辑与应用

07-12

### 大语言模型原理、底层逻辑与应用 #### 一、大语言模型的原理大语言模型（Large Language Model, LLM）是基于深度学习技术的自然语言处理（NLP）模型，通过学习海量文本数据，能够生成和理解自然语言文本。...

大语言模型底层逻辑解析.zip

08-29

本压缩包文件“大语言模型底层逻辑解析.zip”显然是针对这一主题进行深入探讨的资源集合。让我们来详细解析大语言模型的底层逻辑。一、语言模型的基本概念语言模型是概率统计模型的一种，它的主要任务是对给定的...

大语言模型的底层逻辑.zip

08-07

大语言模型是当前人工智能领域中的一个热门话题，其底层逻辑主要涉及自然语言处理（NLP）、深度学习和大规模数据训练等多个方面。本文将深入探讨大语言模型的核心原理、技术架构以及其在实际应用中的作用。首先，...

分词器与词表

北落师门XY的博客

06-29

3780

有多种词表文件格式：vocab.txt、tokenizer.json。 vocab.txt特殊token的介绍 [CLS] 开始 [SEP]结束，可用于分隔2个句子 [UNK]未知字符 [MASK]进行mask处 ##able 子词的后缀 [unused10] 预留位，便于扩充词表。可在不改变此表大小基础上增加tokenBert如何使用预留的[unused*] - 简书 tokenizer.json 特殊token的介绍 <s>开始 </s>结束 <pad> <

【LLM大模型】怎么裁剪LLM（大语言模型）的vocab（词表）？

huang9604的博客

07-08

1477

对于一些多语言的大语言模型而言，它的词表往往很大。在下游使用这些模型的时候，可能我们不需要其它的一些语言，例如只需要中文和英文，此时，我们可以对其vocab进行裁剪，既可以大大减少参数量，也能够保留模型的性能，接下来以Bloom模型为例看看是怎么进行操作的。代码来源于这：https://github.com/yangjianxin1/LLMPruner。

Transformer的本质图解代码细节全析

Angelina_Jolie的博客

04-18

1405

尽管宇宙的熵在不断增加，生命体和智能体却能够通过学习在局部范围内实现减熵，即通过摄取和转换能量来增加内部的有序性。Transformer模型正是这样一种智能体，它通过学习数据中的模式和规律，提高了对序列数据的处理能力。本文详细介绍了Transformer模型的所有关键组成部分，并分析了其为什么这么实现，实现的原理是什么。同时每个部分都配有相应的代码实现和解释，希望您能够更深入地理解Transformer模型的工作原理。

从零实现Transformer的简易版与强大版：从300多行到3000多行

热门推荐

结构之法算法之道

04-12

4万+

transformer强大到什么程度呢，基本是17年之后绝大部分有影响力模型的基础架构都基于的transformer(比如，有200来个，包括且不限于基于decode的GPT、基于encode的BERT、基于encode-decode的T5等等)通过博客内的这篇文章《》，我们已经详细了解了transformer的原理(如果忘了，建议先务必复习下再看本文)

transformer系列3---transformer结构参数量统计

lansebingxuan的专栏

09-26

1427

NLP算法会使用不同的分词方法表示所有单词，确定分词方法之后，首先建立一个词表，词表的维度是词总数vocab_size ×表示每个词向量维度d_model（论文中dmodel默认值512），这是一个非常稀疏的矩阵。由两个线性层组成，W1维度是（dmodel，4×dmodel），b1维度是4×dmodel，W2维度是（4×dmodel，dmodel），b2维度是dmodel，参数量为 dmodel×4×dmodel+4×dmodel+4×dmodel×dmodel+dmodel =因此，位置编码的参数量=

保姆级讲解Transformer

WGS.

05-31

5577

保姆级讲解Transformer

词汇表大小对大语言模型的影响

Hanscal

07-28

1497

在大型语言模型中，平衡模型参数、词汇量与训练数据的规模对于实现高效能和经济性的模型扩展至关重要。论文重点研究了大型语言模型中词汇量大小对模型扩展规律的影响，发现更大规模的模型应配备更庞大的词汇量以优化性能，并通过实验验证了这一观点，指出当前许多大型语言模型所使用的词汇量实际上偏小。论文题目：Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies。

大模型扫盲系列——大模型实用技术介绍

chengxuyuanyy的博客

08-30

1251

从公式知，输入是正的，则直接输出该值；如果输入是负的，则输出0。ReLU因其简单性和效率在深度学习中非常流行。它有助于解决梯度消失问题，加速了神经网络的收敛，并且计算简单。

Transformer实现以及Pytorch源码解读（二）-embedding源码分析

铁血军的小博客

12-20

3513

Embedding的过程源码解读