大语言模型LLMBook-4

csdnyzm

已于 2025-03-23 23:20:01 修改

阅读量615

点赞数 12

CC 4.0 BY-SA版权

分类专栏： DataWhale 文章标签：语言模型人工智能自然语言处理

于 2025-03-23 23:04:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/csdnyzm/article/details/146464198

DataWhale 专栏收录该内容

5 篇文章

订阅专栏

2.1Transformer模型介绍

1注意力机制

1 2017年Google提出的Attention Is All You Need
2一种基于相似度的查表
- s1 计算query与key的相似度：eij=qiT kj
- s2 相似度归一化：αij=exp(eij)/Σj e(eij)
- s3 对value加权求和 oi = Σj αij vi

2 Transformer模型：编码器-解码器结构

在这里插入图片描述

1 N层堆叠编码器：将输入变换为隐藏层特征
- 多头注意力MHA：建模任意距离词元间的语义关系
  - 单注意力头计算：Scaled Dot-Prouduct Attention
    - Attention(Q,K,V)=softmax(QKT/√D)V
  - 多注意力头拼接：Multi-Head Attention
    - MHA=Concat(head1,…,headN)WO
- 前馈网络FFN
  - 线性变化：先升维，后降维
  - 非线性：ReLU或GELU
- 残差连接和层归一化LayerNorm
  - 残差连接
  - 层归一化
    - RMS均方根层归一化
    - 层前归一化、层后归一化、夹心归一化
- 输入编码：xt=vt+pt
  - vt：词嵌入（语义信息）
  - pt：位置编码（位置信息）
    - 绝对位置编码
    - 相对位置编码：RoPE旋转位置编码；ALiBi位置编码
2 N层堆叠解码器：将隐藏层特征变换为自然语言序列
- (掩码)多头注意力 MaskedMHA
- 前馈网络FFN
- 残差连接和层归一化LayerNorm
- 输出层：生成词元概率分布
  - 全连接层
  - 归一化指数函数softmax

3 LLaMA与DeepSeek模型配置对比

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。