【人工智能基础2】【3】大模型相关问题扫盲-优快云博客

本文链接：https://blog.youkuaiyun.com/hiliang521/article/details/146059054

类别	详情
定义	基于深度学习，拥有海量参数（数十亿甚至上万亿），经大规模文本数据预训练，掌握自然语言知识，具备强大语言处理能力
技术特点	1. 参数规模大，可捕捉复杂语言模式，提升任务表现 2. 采用Transformer架构，利于并行计算，处理长序列和复杂语义能力强 3. 通过大规模预训练，利用海量多样文本数据提取通用语言特征
主要能力	1. 理解：能理解文本语义、句法和上下文，应用于阅读理解、情感分析等任务 2. 生成：可根据提示生成连贯、高质量文本 3. 推理：依据知识和文本进行推理，解答逻辑与知识整合问题
代表性模型	GPT：OpenAI开发，文本生成能力突出 BERT：谷歌开发，擅长自然语言理解任务 T5：谷歌开发，任务通用性、灵活性强

核心组件	说明
自注意力机制	计算输入中各位置关联，确定当前位置权重，聚焦关键部分，如分析句子时可判断词间关系
多头注意力	多个自注意力头并行运作，从不同角度获取语义，汇总后丰富特征
前馈神经网络	对注意力输出进行非线性处理，增强模型表达力，由两个线性层和一个激活函数构成
位置编码	因Transformer本身无法感知位置，将位置信息融入输入，助模型分辨元素位置
残差连接	在网络层间添加直接连接，把输入传递到后续层，解决梯度消失问题，利于模型学习
层归一化	对每层输入进行归一化，加快模型训练速度，提升模型稳定性与泛化性

编码：输入序列经词嵌入转成向量，加上位置编码。编码器有多个层，每层含多头注意力和前馈神经网络。自注意力算位置依赖、定权重，结果进前馈神经网络提取特征，残差连接和层归一化助力训练。
解码：解码器由多层构成。生成目标序列时，依据已生成内容和编码器输出，经自注意力、对编码器输出的注意力及前馈神经网络预测下一词。训练时计算预测与真实的损失，用反向传播更新参数。
并行计算：自注意力和前馈神经网络等可并行运算，极大提升训练和推理效率，能高效处理大量自然语言数据。