【AI大模型系列】初识AI大模型（一）

原创已于 2024-12-15 13:39:55 修改 · 570 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2024-12-15 13:37:25 首次发布

AI大模型系列专栏收录该内容

8 篇文章

订阅专栏

一、什么是AI大模型

二、AI大模型的关键概念

三、常见的AI大模型

一、什么是AI大模型

在过去1~2年的时间中，被各种AIGC、AGI、LLM、大模型、生成式AI等概念刷屏，包括：那么到底什么是AI大模型？

AI大模型的特点是训练数据量级大、参数量级大，这些模型通常具备较高的通用性，可以被应用于自然语言处理、图像识别、语音识别等领域。

二、AI大模型的关键概念

参数（Parameters）：参数是机器学习模型中的变量，它们在训练过程中被调整以最小化损失函数。在AI大模型中，参数数量通常达到数十亿甚至数千亿，这些参数决定了模型的行为和性能。
预训练（Pre-training）：预训练是指在大量无标签数据上训练模型的过程，目的是让模型学习通用的特征表示。预训练模型可以在后续的任务中通过微调来适应特定的应用。
微调（Fine-tuning）：微调是在预训练模型的基础上，使用少量的标注数据进一步调整模型参数的过程，以提高模型在特定任务上的性能。
RAG（Retrieval-Augmented Generation，检索增强生成）：RAG是一种结合了检索（Retrieval）和生成（Generation）的深度学习模型架构。
Prompt（提示词）：Prompt是给定一个任务时，提供给AI模型的输入文本，它指导模型如何理解和响应特定的指令或问题。一般Prompt包括任务描述、输入数据、示例。
Token：是一个常用的术语，它指的是字符串的最小单元，通常用于表示单词、符号或子字符串。
Embedding：是指将变量或对象（如单词、短语或文档）映射到实数向量空间的过程。这些向量（也称为嵌入向量）捕捉了对象之间的相似性和差异性，使得机器学习算法可以在这些向量上执行操作，如计算距离或角度。
多模态（Multimodality）：允许单个模型同时理解语言、图像、视频、音频等，并完成单模态模型无法完成的任务。
幻觉（Hallucination）：指的是模型生成的内容与现实世界的事实或逻辑不符，即生成了虚假或不准确的信息。
深度学习（Deep Learning）：深度学习是一种机器学习方法，它使用多层神经网络来学习数据的复杂模式。AI大模型通常基于深度学习架构，如卷积神经网络（CNNs）和Transformer模型。
零样本学习（Zero-Shot Learning）：零样本学习是指模型在没有看到任何特定类别的样本的情况下，就能够识别或生成该类别的样本。这通常依赖于模型的泛化能力和对类别之间关系的推理。
少样本学习（Few-Shot Learning）：少样本学习是指模型在只看到少量特定类别的样本后，就能够识别或生成该类别的新样本。这介于零样本学习和完全监督学习之间。
自注意力机制（Self-Attention Mechanism）：自注意力机制是一种允许模型在处理序列数据时，计算序列中任意两个位置之间的依赖关系的技术。这种机制在Transformer模型中尤为重要，它使得模型能够捕捉长距离依赖。

三、常见的AI大模型

系统	ChatGPT	Claude	PaLM2	LLaMA	Qwen
典型模型	GPT-4o、GPT-o1	Claude 3.5	PaLM2	Code-Llama、Llama-3	Qwen2.5、Qwen-Long
开发者	OPEN AI	Anthropic	Google	Meta	阿里
参数量	1750亿个参数	Claude 2背后的模型是520亿参数	3400亿个参数	700亿参数	720亿参数
单次处理token上限	8192个（GPT-4）	10万量级	未知	未知	128K