文章目录
1 LLM 大模型架构设计关键技术剖析
大语言模型预训练到底是什么?
大语音模型预训练?
- 给定一个已知输入(X)和已知结果(Y),不断修改/更新这个大模型的参数,让这个大模型的输出无限逼近这个已知结果(Y)的过程。
- 当这个差值(大模型的输出值和实际值之间的差异)足够小(损失函数),变成我们可以接受的状态就预训练完成。
神经网络的最基础的一个神经元计算单元
- X 和 Y 的线性关系
- 最基础的一个神经网络
大语言模型预训练目标是什么?
- 语言模型(Language Model):根据已有的词(称为token),预测下一个词。训练目标是最大化似然函数
- 去噪自编码器(Denoising Auto Encoder):随机替换掉一些文本段,训练 LLM 目标是恢复被打乱的文本段。目标函数:
- 去噪自编码器的实现难度更大,采用它作为训练目标的 LLM 有 ChatGLM-130B、T5。
大语音模型tokenizer如何构建?
Byte-Pair Encoding(BPE)构建步骤
- 准备足够的训练预料以及期望的词表大小
- 将单词拆分为字符粒度(字粒度),并在末尾添加后缀“”,统计单词频率
- 合并方式:统计每一个连续/相邻字节对的出现频率,将最高频率的连续字节对合并为新的子词
- 重复第 3 步,直到词表达到设定的词表大小或下一个最高频字节对出现频率为1
- GPT-2、BART、LLaMA 等都采用了 BPE 的方式。
LLM 大模型分词案例