大模型系列:LLaMA大模型简述和本地部署实践


LLaMA大模型背景介绍

LLaMA是Meta AI公司在2023年2月发布的开源大模型,在开放基准上有着非常出色的表现,是迄今为止最流行的开放语言模型之一。
同期谷歌的PaLM大模型,OpenAI的GPT-4都采用闭源的方式,不能从源码来剖析模型的结构,LLaMA的开源降低了大模型的研究门槛,后续许多大模型都是借鉴或沿用了LLaMA的模型框架。另一方面由于LLaMA的开源,开发者可以将LLaMA作为基座模型进行本地部署搭建,用新的语料继续预训练或者微调,从而保证了数据的安全性不需要发送给第三方。

Meta AI公司羊驼大模型LLaMA


LLaMA网络结构相比Transformer的改进

LLaMA和GPT系列一样采用Transformer的堆叠Decoder,以上下文预测下一个词作为预测目标,在海量文本上进行无监督预训练。LLaMA的训练语料是以英语为主的拉丁语系,在分词方面,LLaMA采用sentencepiece实现的Byte-level BPE对语料进行分词编码。
和标准的Transformer相比,LLaMA借鉴了同期其他的研究成果对模型的局部结构进行了调整,包括

  • 前置层归一化+RMSNorm归一化函数
  • 门控线性单元和SwiGLU激活函数
  • 旋转位置编码RoPE
1.前置层归一化+RMSNorm归一化函数

为了使模型训练更加稳定,在Decoder单元将第一个层归一化移动到多头注意力之前,将第二个层归一化移动到前馈传播层之前,同时残差连接位置调整到多头注意力层和前馈传播层之后,如下图所示

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值