Token 在 LLM

Overman..

已于 2024-04-19 14:43:00 修改

阅读量1.1k

点赞数 20

分类专栏： LLM 文章标签：人工智能算法

于 2024-04-19 14:37:03 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_36441033/article/details/137964238

版权

大语言模型需要将原始文本转换为数字序列，这一过程涉及Tokenization策略、Token到token id映射以及Token Embedding。预训练和自注意力机制在生成高质量的上下文感知向量中起关键作用。Token序列长度有限制，以适应计算资源和注意力机制的局限。Transformer模型通过自注意力机制处理序列依赖。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大语言模型不能理解原始文本，所以需要把原始文本转换成大语言模型可以理解的数字表示形式，经过大模型处理以后，需要将该数字表示形式转换为人可以理解的文本。

在这里插入图片描述

原始文本到 token

原始文本转换为token序列的过程通常是在LLM的预处理阶段完成的。

在大型语言模型(LLM)中,token是指模型输入或输出序列中的基本单元。通常情况下,一个token可能是一个单词、一个字符或一个字节序列,这取决于模型的预处理方式。
Token在LLM中扮演着非常重要的角色,主要有以下几个原因:

输入表示 - LLM需要将原始文本转换为模型可以理解的数字序列。将文本分解为token序列是这个转换过程的第一步。
输出生成 - LLM生成文本时,也是通过预测下一个token的概率分布,然后采样或选择概率较高的token,循环这个过程直到达到终止条件。
上下文窗口 - 大多数LLM有最大输入长度的限制,通过将输入分解为token,模型可以处理比词或字符级别更长的上下文。
子词tokenization - 一些tokenizer采用基于字节对编码(BPE)等子词tokenization算法,可以更好地处理未见词并减小词表大小。
模型参数 - LLM通常以token为单位计算参数大小。更大的token数量通常意味着模型可以处理更长、更复杂的输入。

总的来说,token是LLM进行序列建模和生成的基本单位,对于输入理解、输出生成、上下文捕获和参数大小等都有重要影响。合理的token设计对于LLM的性能至关重要。

根据不同的Tokenization(分词)策略,Token可以是单词、子词或者字符等。

以下是一些常见Token的例子:

单词Token
- 句子: “The quick brown fox jumps over the lazy dog.”
- Tokens: “The”, “quick”, “brown”, “fox”, “jumps”, “over”, “the”, “lazy”, “dog”
子词Token
- 单词: “Unbelievable”
- BPE子词Tokens: “Unbeli”, “evable”
字符Token
- 单词: “Hello”
- 字符Tokens: “H”, “e”, “l”, “l”, “o”
SentencePiece Token
- 句子: “The student studies at university.”
- SentencePiece Tokens: “The”, " stu", “dent”, " studi", “es”, " at", " un", “ivers”, “ity”, “.”