大语言模型系列-Transformer

学海一叶

于 2024-01-18 09:33:55 发布

阅读量3k

点赞数 31

CC 4.0 BY-SA版权

分类专栏： LLM 文章标签：语言模型 transformer 人工智能深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/long11350/article/details/135655767

文章目录

前言
一、Attention
二、Transformer结构
三、Transformer计算过程
总结

前言

前文大语言模型系列-ELMo提到了，RNN的缺陷限制了NLP领域的发展，2017年Transofrmer的横空出世，NLP领域迎来了基于Transformer的预训练模型（LLM）的大爆发。

Transformer由谷歌的2017年论文《Attention is All You Need》提出。

Transformer通过引入注意力机制解决了RNN存在的以下问题：

RNN编码器-解码器结构中，仅将最后一个隐藏状态传递给解码器，会丢失信息
RNN难以并行计算

提示：以下是本篇文章正文内容，下面内容可供参考

一、Attention

循环神经网络（RNN）模型建立了网络隐藏层之间的时序关联 , 每一时刻的隐藏层 $s_t$ ，不仅取决于输入 $x_t$ ，还取决于上一时刻隐藏层信息 $s_{t-1}$
两个RNN组合可以形成Encoder-Decoder模型
但是这种不管输入多长，都统一压缩成长度编码C的做法，会导致信息的丢失，因此出现了Attention机制：即通过每个时间输入不同的C解决这个问题，其中 $a_t$ 表明了在 $t$ 时刻所有输入的权重，以 $c_t$ 的视角看过去， $a_t$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

学海一叶 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。