【人工智能之大模型】为什么Transformer块使用LayerNorm而不是BatchNorm?
【人工智能之大模型】为什么Transformer块使用LayerNorm而不是BatchNorm?
文章目录
欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!
大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文。详细信息可关注VX “
学术会议小灵通
”或参考学术信息专栏:https://blog.youkuaiyun.com/gaoxiaoxiao1209/article/details/146477488
前言
Transformer模型在自然语言处理、计算机视觉以及遥感图像等领域取得了显著的成功,而其中一个重要的设计细节就是在Transformer块中使用了