
Token Embedding(词嵌入)和Positional Encoding(位置编码)的矩阵形状关系及转换过程
这里是将原始本文转换成序列(很长),为了便于处理,又按照要求,设定模型一次能处理的序列长度block_size设定为64,按批次处理,一个批次大小batch_size处理32个序列,因此输入的形状就变成了一个矩阵。注意最开始是仅处理了了一个序列长度block_size=64,但是模型是按批次处理,一个批次大小batch_size=32个序列,一个序列的形状变成了一个矩阵,那其他序列的就需要复制来实现。(1)Token Embedding输出: (32,64,128),(通过嵌入层直接映射每个字符索引)
