一、什么是大模型
大模型是基于语言模型的演化,特别是大型预训练模型,其核心目标是提高语言理解和生成的能力。模型的演变历程包括:
- 统计语言模型(SLM):利用马尔可夫假设,通过𝑛元模型进行语言建模。
- 神经语言模型(NLM):基于神经网络,如循环神经网络(RNN),通过学习上下文相关的词表示(词嵌入)来建模。
- 预训练语言模型(PLM):使用大量无标注数据进行预训练,再通过微调适应具体任务(如BERT、GPT系列)。
- 大语言模型(LLM):强调通过扩展法则提升模型性能,展现出涌现能力(如GPT-3、ChatGPT)。
(涌现能力通常被定义为一种在大模型中出现,而在小模型中不存在的能力。这种能力的出现往往伴随着模型规模的显著增加,导致模型在特定任务上的性能发生质变。例如,在一些知识密集型任务上,当模型达到一定规模时,它能够记住并学会更多的知识,从而在这些任务上表现出色。)
二、大模型的构建过程
大模型的构建通常分为三个阶段:
- 预训练:使用海量数据进行初始学习,建立良好的模型参数起点。数据质量和多样性至关重要,同时需要强大的计算资源进行训练。
- 有监督微调:在预训练基础上,通过成对的输入和输出数据,训练模型以提高在特定任务上的表现。这一过程显著减少了所需数据量,增强了模型的指令遵循能力。
- 基于人类反馈的强化学习对齐(RLHF):通过奖励模型和专家偏好排序,使得模型的输出与人类的期望和价值观对齐,提升实际应用效果。
三、开源与闭源大模型
大模型的开发与维护需要巨大的计算能力和数据支持,形成了两大阵营:
- 开源组织:如Meta AI、浪潮信息,致力于促进学术交流