文章目录
1、什么是LLM
类别 | 详情 |
---|---|
定义 | 基于深度学习,拥有海量参数(数十亿甚至上万亿),经大规模文本数据预训练,掌握自然语言知识,具备强大语言处理能力 |
技术特点 | 1. 参数规模大,可捕捉复杂语言模式,提升任务表现 2. 采用Transformer架构,利于并行计算,处理长序列和复杂语义能力强 3. 通过大规模预训练,利用海量多样文本数据提取通用语言特征 |
主要能力 | 1. 理解:能理解文本语义、句法和上下文,应用于阅读理解、情感分析等任务 2. 生成:可根据提示生成连贯、高质量文本 3. 推理:依据知识和文本进行推理,解答逻辑与知识整合问题 |
代表性模型 | GPT:OpenAI开发,文本生成能力突出 BERT:谷歌开发,擅长自然语言理解任务 T5:谷歌开发,任务通用性、灵活性强 |
2、Transformer模型的核心组件是什么?原理是什么?
核心组件
核心组件 | 说明 |
---|---|
自注意力机制 | 计算输入中各位置关联,确定当前位置权重,聚焦关键部分,如分析句子时可判断词间关系 |
多头注意力 | 多个自注意力头并行运作,从不同角度获取语义,汇总后丰富特征 |
前馈神经网络 | 对注意力输出进行非线性处理,增强模型表达力,由两个线性层和一个激活函数构成 |
位置编码 | 因Transformer本身无法感知位置,将位置信息融入输入,助模型分辨元素位置 |
残差连接 | 在网络层间添加直接连接,把输入传递到后续层,解决梯度消失问题,利于模型学习 |
层归一化 | 对每层输入进行归一化,加快模型训练速度,提升模型稳定性与泛化性 |
原理
- 编码:输入序列经词嵌入转成向量,加上位置编码。编码器有多个层,每层含多头注意力和前馈神经网络。自注意力算位置依赖、定权重,结果进前馈神经网络提取特征,残差连接和层归一化助力训练。
- 解码:解码器由多层构成。生成目标序列时,依据已生成内容和编码器输出,经自注意力、对编码器输出的注意力及前馈神经网络预测下一词。训练时计算预测与真实的损失,用反向传播更新参数。
- 并行计算:自注意力和前馈神经网络等可并行运算,极大提升训练和推理效率,能高效处理大量自然语言数据。
3、常见的大语言模型有哪些?
Deepsee