目录
一、套壳的风波此起彼伏
国内“百模大战”,我形容是“群模乱舞”,具体国内有哪些著名的大模型,请参考我的文章——
群模乱舞,AI大模型盛开,国内大模型盘点_ai大模型有哪些-优快云博客
里面列出了大厂的模型,以及很多学院派的大模型。
大模型一夜之间,如同AIGAI,自体繁殖一样多起来,很多媒体的声音,也此起彼伏,说国内的大模型,很多都是开源大模型的套壳版本。
这里面动静最大的,可能是李开复先生的零一大模型张量命名事件。其推出的“Yi”大模型,这款模型被揭露只是对LLaMA进行了表面上的修改——仅仅改变了两个张量的名称。这种创新,确实在AI界并非孤例,而是一个普遍现象。
有人说,开源就该这样利用,不然开源干什么?有人说,闭源才是自主研发,参考开源就是套壳。
2023年2月,Meta首次发布了Llama羊驼系列模型。在这个初始版本中,羊驼系列包括了四种不同规模的模型:参数量分别为7亿、13亿、33亿和65亿。7月,Meta公布最新大模型 Llama 2(羊驼 2),包含 7B、13B 和 70B 三种参数变体,可免费用于商业或者研究。这引起不小的轰动,不光是国内,很多国外的大模型,基本都是复用了Llama2,后面我们会讲,为什么选择这个大模型,因为确实不用重复发明轮子了。
有想了解开源和闭源生态的,可以参考我的文章:【AI】马斯克说大模型要开源,我们缺的是源代码?(附一图看懂6大开源协议)_马斯克说大模型在技术上的突破-优快云博客
非 AI 从业者,视套壳如洪水猛兽,吃瓜者认为套壳就是抄袭的代名词;真正的 AI 从业者,对套壳讳莫如深,需要借鉴,又狠怕惹锅上身。但由于“套壳”本身并没有清晰、准确的定义,导致行业对套壳的理解也是一千个读者有一千个哈姆雷特。
那么,问题来了——
二、到底什么是大模型的壳
2.1 大模型的3部分,壳指的是哪里
要想知道什么是大模型的壳,我们要先知道,大模型包括哪几个部分。
大模型的内核
大模型的内核通常指的是模型的核心架构和算法,这些设计决定了模型如何处理输入数据并生成输出。在大模型中,内核往往包含了大量的计算单元(如神经元、层等),以及它们之间的连接方式和权重。这些计算单元通过特定的数学运算(如矩阵乘法、激活函数等)共同工作,以提取输入数据的特征并做出预测。
大模型的内核设计通常基于深度学习理论,尤其是神经网络。近年来,如上所述,Transformer架构因其出色的性能成为了大模型内核的热门选择。Transformer利用自注意力机制来处理序列数据,能够捕获长距离依赖关系,并在各种NLP任务中取得了显著成果。
也就是说,大家的内核,基本都来自相同的老祖宗。
预训练(Pre-training)
预训练是指在大规模数据上对模型进行初步的训练。这个过程通常是无监督的,意味着模型不需要人工标注的数据就可以学习。预训练的目标是让模型学习到通用的知识和表示方法,这样它就能够更好地适应各种下游任务。
在大模型中,预训练尤为重要,因为庞大的参数量需要大量的数据来有效训练。预训练不仅可以提高模型的泛化能力,还可以加速后续任务的学习过程。例如,在NLP领域,BERT、GPT等模型就是通过在大规模文本语料库上进行预训练来获得强大的语言理解能力的。
调优(Fine-tuning)
调优,也叫做“微调”,是指在特定任务的数据上对已经预训练过的模型进行进一步的训练。这个过程通常是有监督的,需要使用标注好的数据来指导模型的学习。调优的目标是调整模型参数,使其更好地适应特定任务的需求。
在大模型中,调优通常比从头开始训练要高效得多,因为预训练已经为模型提供了一个很好的起点。通过调优,模型可以在较少的迭代次数和较小的数据集上达到较好的性能。此外,调优还可以使模型更加灵活地适应各种场景和任务需求。
在漫长的预训练之后会得到一个基座模型(Base Model),在基座模型的基础上加入特定行业的数据集做进一步的微调,就会得到一个微调模型(Fine-tuning Model),或者称为行业模型、垂直模型。
2.2 内核的发展历程和万流归宗
我们都知道,是大