什么是大模型?
概念
大模型(Large Language Model, LLM)是指参数量巨大(通常达数十亿甚至千亿级)、结构复杂的深度学习模型。它们通过海量数据和强大算力训练,具备多任务学习、泛化能力强等特点,能够处理文本、图像、语音等多模态数据,并广泛应用于自然语言理解、生成、推理等复杂任务。
早期的时候,也叫Foundation Model,基础模型。大模型是一个简称。完整的叫法,应该是“人工智能预训练大模型”。 我们现在口头上常说的大模型,实际上特指大模型的其中一类,也是用得最多的一类——语言大模型(Large Language Model,也叫大语言模型,简称LLM)。
除了语言大模型之外,还有视觉大模型、多模态大模型等。现在,包括所有类别在内的大模型合集,被称为广义的大模型。而语言大模型,被称为狭义的大模型。
从本质来说,大模型,是包含超大规模参数(通常在十亿个以上)的神经网络模型。
实际上,大模型的“大”,不仅是参数规模大,还包括:架构规模大、训练数据大、算力需求大。</