Llama3.1系列模型的开源,真让大模型格局大震,指标上堪比最好的闭源模型比如GPT 4o和Claude3.5,让开源追赶闭源成为现实。
这里给大家分享一篇俊林兄(@知乎张俊林)的一篇解读,主要对LLaMA3.1的模型结构、训练过程进行分享,并对其带来的影响、小模型要如何做、合成数据等方面谈点看法。
知乎原文:https://www.zhihu.com/question/662354435/answer/3572364267
Llama3.1 Paper: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
LLaMA3模型结构

LLaMa3的模型结构如上图所示,这基本已经形成目前Dense LLM模型的标准结构了,绝大多数LLM模型结构都与此非常接近。而很多采取MOE结构的LLM模型,其变化无非是把上图的FFN模块里的单个SwiGLU模块拓展成K个并联的SwiGLU模块,形成多个专家,再加上一个路由子网络来选择目前Token走这么多专家里的哪几个,如此而已,基本结构也差不太多(所以不要误会,MOE是Transformer的一种变体,不是独立的模型结构。很多目前的新型结构,其实是“线性Transformer”结构的变体,目前很少有结构能逃脱Transformer架构的影响,都处在它的阴影下。当然我对新结构持支持态度,Transformer被替换只是时间问题,只不过这不是当前制约大模型能力的瓶颈,改变的迫切性没那么大而已。)
之所以LLaMA结构基本快形成行业标准,我觉得有两个原因。原因一是侧面说明了Transformer结构趋于稳定,肯定很多人试过其它变体结构但是要么在效果,要么在可扩展性(Scalability),总之,某一点要比这个结构效果要差,这虽然是无依据的推导,但想来是大概率事件。
原因之二是因为目前LLM已形成生态,各种衍生的工具比如快速推理框架等都兼容这个结构,如果你新结构变动太大,很多流行工具不支持,就很难扩散影响力形成新的行业标准。新结构不仅仅要达成替换Transformer那么简单,你面对的是整个生态,再没有确切证据表明各方面都明显好于上述结构前提下,是很难替换掉Transformer的。从这里就看出Meta坚决走开源路线的高明之处了,早开源早形成影响力早成为行业标准,那么以后LLM的技术路线做技术选型话语权就非常大 ,其他人就比较被动。谷歌因为一心二用开源不坚决,有点错失时机。
LLaMA3.1的预训练过程
Llama3.1 预训练包括三个主要阶段:(1) 初始预训练,(2) 长上下文预训练,以及 (3) 退火(Annealing)。总体而言,和目前一些其它开源模型的训练过程差别不大,不过技术报告公开了很多技术细节。
-
初始预训练:就是

最低0.47元/天 解锁文章
2080

被折叠的 条评论
为什么被折叠?



