【人工智能基础2】【3】大模型相关问题扫盲

1、什么是LLM

类别 详情
定义 基于深度学习,拥有海量参数(数十亿甚至上万亿),经大规模文本数据预训练,掌握自然语言知识,具备强大语言处理能力
技术特点 1. 参数规模大,可捕捉复杂语言模式,提升任务表现
2. 采用Transformer架构,利于并行计算,处理长序列和复杂语义能力强
3. 通过大规模预训练,利用海量多样文本数据提取通用语言特征
主要能力 1. 理解:能理解文本语义、句法和上下文,应用于阅读理解、情感分析等任务
2. 生成:可根据提示生成连贯、高质量文本
3. 推理:依据知识和文本进行推理,解答逻辑与知识整合问题
代表性模型 GPT:OpenAI开发,文本生成能力突出
BERT:谷歌开发,擅长自然语言理解任务
T5:谷歌开发,任务通用性、灵活性强

 

2、Transformer模型的核心组件是什么?原理是什么?

核心组件

核心组件 说明
自注意力机制 计算输入中各位置关联,确定当前位置权重,聚焦关键部分,如分析句子时可判断词间关系
多头注意力 多个自注意力头并行运作,从不同角度获取语义,汇总后丰富特征
前馈神经网络 对注意力输出进行非线性处理,增强模型表达力,由两个线性层和一个激活函数构成
位置编码 因Transformer本身无法感知位置,将位置信息融入输入,助模型分辨元素位置
残差连接 在网络层间添加直接连接,把输入传递到后续层,解决梯度消失问题,利于模型学习
层归一化 对每层输入进行归一化,加快模型训练速度,提升模型稳定性与泛化性

原理

  • 编码:输入序列经词嵌入转成向量,加上位置编码。编码器有多个层,每层含多头注意力和前馈神经网络。自注意力算位置依赖、定权重,结果进前馈神经网络提取特征,残差连接和层归一化助力训练。
  • 解码:解码器由多层构成。生成目标序列时,依据已生成内容和编码器输出,经自注意力、对编码器输出的注意力及前馈神经网络预测下一词。训练时计算预测与真实的损失,用反向传播更新参数。
  • 并行计算:自注意力和前馈神经网络等可并行运算,极大提升训练和推理效率,能高效处理大量自然语言数据。

 

3、常见的大语言模型有哪些?

Deepsee

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

roman_日积跬步-终至千里

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值