关于大模型的一些知识

原创于 2025-12-18 09:13:15 发布 · 673 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#大模型 #模型训练 #多模态

关于大模型的一些知识

关于大模型
最后总结

关于大模型，对于非技术人员来说，大家可能或多或少的听过什么是大模型，以及现在各大厂商的一些大模型产品。对于技术人员来说，大模型那可太熟悉了，日常工作开发离不开，平时遇到问题分析解决问题离不开，生活中有不懂的或者想知道的也是第一个去咨询大模型。那么说了这么多，到底什么是大模型呢？

关于大模型

大模型是人工智能发展历程中的重要里程碑。在对大模型进行深入了解之前，我们先来了解一些人工智能的重要概念，这不仅可以让我们了解大模型是如何被塑造的，更能帮助我们全面地理解大模型的原理和潜能。
人工智能（AI）是一门使机器模拟人类智能过程的学科，其中具体包括学习、推理、自我修正、感知和处理语言等功能。人工智能涉及计算机科学、数据分析、统计学、机器工程、语言学神经科学、哲学和心理学等多个学科的领域，旨在研究、设计、构建具备智能、学习、推理和行动能力的计算机和机器。
人工智能按照技术实现的不同可被划分为多个子领域，包括：人工智能(Artificial Intelligence，Al) 、机器学习(Machine Learning，ML)、深度学习(Deep Learning，DL)、生成式人工智能(Generative Al)等，各个子领域之间往往相互关联和影响。
再说回到大模型，大模型是一类具有大量参数（通常在十亿以上），能在极为广泛的数据上进行训练，并适用于多种任务和应用的预训练深度学习模型。
我们所熟知的ChatGPT正是一种先进的人工智能语言模型，专为对话交互而设计，具有强大的自然语言理解和生成能力，可以完成撰写论文、邮件、脚本、文案、翻译、代码等任务。ChatGPT的发布标志着AI大模型在语言理解与生成能力上的重大突破，对全球AI产业产生了深远影响，开启了人工智能大模型应用的新篇章。

大模型的训练

大模型的训练整体上分为三个阶段：预训练、SFT（监督微调）以及RLHF（基于人类反馈的强化学习）
在这里插入图片描述
预训练（Pre-training）：预训练的过程类似于从婴儿成长为中学生的阶段，在这个阶段我们会学习各种各样的知识，我们的语言习惯、知识体系等重要部分都会形成；对于大模型来说，在这个阶段它会学习各种不同种类的语料，学习到语言的统计规律和一般知识。但是大模型在这个阶段只是学会了补全句子，却没有学会怎么样去领会人类的意图，假设我们向预训练的模型提问：“埃菲尔铁塔在哪个国家？”模型有可能不会回答“法国”，而是根据它看到过的语料进行输出：“东方明珠在哪个城市？”这显然不是一个好的答案，因此我们需要让它能够去遵循人类的指示进行回答，这个步骤就是SFT（监督微调）。
监督微调（SFT，Supervised Fine Tuning）：SFT的过程类似于从中学生成长为大学生的阶段，在这个阶段我们会学习到专业知识，比如金融、法律等领域，我们的头脑会更专注于特定领域。对于大模型来说，在这个阶段它可以学习各种人类的对话语料，甚至是非常专业的垂直领域知识，在监督微调过程之后，它可以按照人类的意图去回答专业领域的问题。这时候我们向经过SFT的模型提问：“埃菲尔铁塔在哪个国家？”模型大概率会回答“法国”，而不是去补全后边的句子。这时候的模型已经可以按照人类的意图去完成基本的对话功能了，但是模型的回答有时候可能并不符合人类的偏好，它可能会输出一些涉黄、涉政、涉暴或者种族歧视等言论，这时候我们就需要对模型进行RLHF（基于人类反馈的强化学习）。
基于人类反馈的强化学习（RLHF，Reinforcement Learning from Human Feedback）：RLHF的过程类似于从大学生步入职场的阶段，在这个阶段我们会开始进行工作，但是我们的工作可能会受到领导和客户的表扬，也有可能会受到批评，我们会根据反馈调整自己的工作方法，争取在职场获得更多的正面反馈。对于大模型来说，在这个阶段它会针对同一问题进行多次回答，人类会对这些回答打分，大模型会在此阶段学习到如何输出分数最高的回答，使得回答更符合人类的偏好。

大模型的特点

大模型有四个比较明显的特点：
规模和参数量大：大模型通过其庞大的规模（拥有从数亿到数千亿级别的参数数量）来捕获复杂的数据模式，使得它们能够理解和生成极其丰富的信息。
适应性和灵活性强：模型具有很强的适应性和灵活性，能够通过微调（fine-tune）或少样本学习高效地迁移到各种下游任务，有很强的跨域能力。
广泛数据集的预训练：大模型使用大量多样化的数据进行预训练，以学习广泛的知识表示，能够掌握语言、图像等数据的通用特征。
计算资源需求大：巨大的模型规模带来了高昂的计算和资源需求，包括但不限于数据存储、训练时间、能量消耗和硬件设施。

大模型的分类

按照现在大家经常接触的大模型来说，大概可以分为两类：
大语言模型（LLM）：主要在自然语言处理（NLP）领域，旨在处理语言、文章、对话等自然语言文本。它们通常基于深度学习架构（如Transformer模型），经过大规模文本数据集训练而成，能够捕捉语言的复杂性，包括语法、语义、语境以及蕴含的文化和社会知识。语言大模型典型应用包括文本生成、问答系统、文本分类、机器翻译、对话系统等。
多模态模型：多模态大模型能够同时处理和理解来自不同感知通道（如文本、图像、音频、视频等）的数据，并在这些模态之间建立关联和交互。它们能够整合不同类型的输入信息，进行跨模态推理、生成和理解任务。多模态大模型的应用涵盖视觉问答、图像描述生成、跨模态检索、多媒体内容理解等领域。
视觉+文本：包括VQA视觉问答，图像字幕，图文检索、文生图等应用。
音频+文本：包括语音生成、语音摘要、语音识别等应用。
音频+视觉：包括音生图、演讲人脸生成等应用。

大模型的应用

阿里巴巴通义系列产品，是涵盖多领域、覆盖200多个服务场景的先进人工智能大模型体系。该系列产品矩阵涵盖金融、法律、科研、医疗、教育等专业领域，以及日常生活中的诸多需求，真正体现了“通情，达义”的设计理念，致力于成为人们工作、学习、生活中的全能助手。此外，阿里云秉持开放姿态，将其核心模型开源开放给全球开发者，以此促进AI技术的共享与进步。
通义千问是阿里云自主研发的超大规模的语言模型，在复杂指令理解、文学创作、通用数学、代码理解生成、知识记忆等能力上均达到领先水平。它支持多种语言，还能处理多种分辨率和规格的图像，实现多语言多模态理解。
通义万相是阿里云自主研发多模态图像和视频生成模型，可提供AI艺术创作，可支持文生图、图生图、图生视频、虚拟模特、个人写真等多场景的图片和视频创作能力。
通义千问和通义万相是阿里巴巴通义系列产品中的基础模型
在这里插入图片描述

最后总结

大模型，作为人工智能领域划时代的突破，已成为当前技术发展的核心驱动力。它本质上是一种参数量极其庞大（通常在十亿甚至千亿级别）、在超大规模多样化数据集上预训练而成的深度学习模型。这种“大”赋予了它强大的能力：能够捕捉复杂的数据模式，具备出色的通用性和适应性，能够通过微调或少量样本学习快速迁移到各种下游任务（跨域能力），理解和生成极其丰富的信息（语言、图像、音频等）。
大模型的“成长”通常经历预训练、监督微调（SFT）和基于人类反馈的强化学习（RLHF）三个阶段，如同一个人从广泛学习基础知识，到接受专业训练，再到在反馈中优化行为模式的过程。这确保了模型不仅能掌握语言规律和世界知识，更能遵循人类意图、生成符合人类偏好的安全输出。
根据处理信息的类型，大模型主要分为专注于文本理解与生成的大语言模型（LLM），以及能整合处理文本、图像、音频、视频等多种模态信息并进行跨模态推理与生成的多模态模型。后者代表了更前沿的方向，能够完成视觉问答、图像描述、文生图、语音合成等复杂任务。
以阿里巴巴的“通义”系列为代表，大模型的应用已深度融入专业领域（金融、法律、医疗、科研）和日常生活，提供从智能问答、内容创作、代码生成到图像/视频生成等广泛服务，显著提升了工作效率和生活便利性。“通义千问”（超大规模语言模型）和“通义万相”（多模态生成模型）等基础模型的开放共享，更是推动了整个AI生态的创新与进步。
总而言之，大模型以其前所未有的规模、强大的泛化能力、广泛的应用场景以及深远的社会影响，正在深刻重塑我们与信息交互的方式，并持续引领人工智能技术进入一个能力更强、应用更广的新纪元。它不仅是技术人员的得力工具，也正逐渐成为每个人触手可及的智能助手。