目录
🎬 攻城狮7号:个人主页
🔥 个人专栏:《AI前沿技术要闻》
⛺️ 君子慎独!
🌈 大家好,欢迎来访我的博客!
⛳️ 此篇文章主要介绍 AI核心概念通识
📚 本期文章收录在《AI前沿技术要闻》,大家有兴趣可以自行查看!
⛺️ 欢迎各位 ✔️ 点赞 👍 收藏 ⭐留言 📝!
引言
人工智能(AI)正在深刻地改变着我们的世界,但层出不穷的技术术语,如大型语言模型(LLM)、Transformer、RLHF等,常常让人感到困惑。很多人感觉AI像一个难以理解的"黑箱"。
要跟上时代,我们需要对这些核心概念有一个基本的、系统的了解。本指南旨在用最平实易懂的语言,为你梳理AI领域最重要的关键术语,帮助你理解AI是如何工作的。
一、全局视野——AI的目标与当前形态
首先,我们来了解几个顶层的概念,它们定义了AI发展的方向和我们目前所处的阶段。
(1)人工智能(AI):这是整个领域的总称。它的核心目标是让机器能像人一样思考、学习和解决问题。这门学科由来已久,但直到最近因为算力的大幅提升,才取得了突破性的进展。
(2)通用人工智能(AGI):这是AI发展的终极目标。AGI指的是一种与人类智慧相当,甚至超越人类,能够在任何领域都能学习和创造的超级智能。我们目前所见到的所有AI,都还只是"专用AI",即只能在特定领域完成任务,远未达到AGI的水平。
(3)基础模型(Foundation Model):这是当前AI技术浪潮的核心驱动力。可以把它理解成一个经过大规模"通识教育"的AI模型。它通过学习互联网上巨量的文本和图片数据,掌握了关于世界的庞大知识,并具备了基础的语言理解、逻辑推理和内容生成能力。这个模型本身可能不是某个领域的专家,但它为各种专用AI应用提供了一个强大的起点。
我们常说的大型语言模型(LLM),如GPT-4、Claude等,就是基础模型最典型的代表。它们由数十亿甚至更多的参数组成,通过分析海量文本数据,构建了一个庞大的、关于人类语言的"多维语义地图"。当用户输入提示时,LLM会根据这个"地图"来预测最可能出现的下一个词,从而生成连贯的回答。
(4)复杂系统(Complex System):一个由众多相互关联的组件构成的系统,其整体行为无法简单地从单个组件的属性中推导出来。在AI领域,大型神经网络就是典型的复杂系统,它们包含数十亿个参数节点,通过复杂的非线性交互产生出我们所说的"智能"。复杂系统的一个关键特征是"非线性",即微小的输入变化可能导致输出的巨大差异。现实世界中的天气、交通系统、生态系统等都属于复杂系统。
(5)涌现能力(Emergent Abilities):这是AI发展中一个非常有趣的现象,也是前述复杂系统的典型特征之一。它指的是当模型的规模(比如参数数量、数据量)增长到一定程度后,会突然表现出一些在小模型上完全不存在的新能力,比如多步推理、理解幽默、编写代码等。这就像把水加热,在99℃时它仍然是水,但一旦达到100℃,就会沸腾变成水蒸气,性质发生了根本改变。"涌现"是此轮AI革命的关键现象之一,它表明AI能力的增长并非简单的线性累加,而是会发生"质变"。
二、核心引擎——AI的几种主流技术架构
基础模型是AI能力的体现,而模型架构则是支撑这些能力的"骨架"。
(1)神经网络(Neural Network)与深度学习(Deep Learning):这是现代AI技术的核心基石。
神经网络:一种模仿人脑神经元连接方式的算法结构。通过多层处理单元,让机器能够识别数据中复杂的模式。近年来GPU计算能力的发展极大地推动了神经网络的性能。
深度学习:机器学习的一个子领域,特指使用层数非常多的(即"深"的)神经网络进行学习。深度学习模型可以自动从数据中识别和提取重要特征,无需人工定义,并通过从错误中学习来不断优化自身。我们熟知的各种生成式AI工具,其背后都是由深度学习驱动的。
(2)Transformer架构:这是自2017年以来,在自然语言处理(NLP)领域占据主导地位的技术架构。几乎所有我们熟知的LLM(GPT、Claude、Gemini)都基于它构建。其革命性的核心是**自注意力机制(Self-Attention)**。简单来说,这个机制让模型在分析一句话时,能同时计算出句子中每个词语与其他所有词语的关联度。这使得它能很好地理解上下文,捕捉长距离的词语依赖关系(比如一篇文章开头和结尾的呼应),极大地提升了语言理解的准确性。
(3)混合专家模型(MoE):这是Transformer架构的一种演进版本。标准Transformer模型在处理问题时,会调用它全部的"知识";而MoE模型则包含多个"专家"子网络。当接收到一个任务时,系统会先判断这个问题属于哪个领域,然后只激活相关的"专家"去解决。这种方式更高效,允许模型在总知识量(参数规模)变得极大的同时,保持较低的单次任务计算成本,实现了"博学"与"专注"的平衡。
(4)扩散模型(Diffusion Model):这是在图像、音视频生成领域应用最广的架构。它的工作原理很巧妙,分为两步:首先,在训练中通过不断添加噪声来"破坏"一张清晰的图片;然后,学习一个"逆扩散"的过程,即如何从纯粹的噪声中逐步还原出清晰的图片。这种能力使得AI可以从无到有,生成全新的、逼真的内容。Midjourney、Stable Diffusion等主流AI绘画工具,其核心都是扩散模型。
(5)生成对抗网络(GAN):一种经典的生成式AI框架,广泛用于生成逼真的数据(如早期的Deepfake技术)。GAN由两个相互竞争的神经网络组成:一个"生成器"负责创造数据,一个"判别器"负责评估数据是否真实。生成器努力"欺骗"判别器,判别器则努力识别出假数据,两者在对抗中共同进步,最终让生成器能够创造出高度逼真的结果。
(6)驱动引擎:GPU(图形处理器):虽然是一个硬件概念,但GPU是引爆此轮AI革命的直接"燃料"。与一次只能处理一个任务的CPU不同,GPU拥有数千个小型核心,能够同时执行海量的并行计算。这种架构恰好与神经网络中大规模的矩阵和向量运算完美契合,使得过去需要数月甚至数年的训练时间,被缩短到数天或数周,从而让训练超大规模的AI模型成为可能。
三、微观运作——AI如何处理信息
了解了宏观架构,我们再来看看AI在微观层面是如何处理我们输入的语言文字的。
(1)Token分词(Tokenization):计算机本身不理解文字,只认识数字。Token分词就是把一句话切分成AI能够处理的最小单元(Token)的过程。一个Token可以是一个词,也可以是半个词或单个字。例如,"我爱人工智能"可能会被切分成"我"、"爱"、"人工"、"智能"四个Token。这是AI开始理解人类语言的第一步。
(2)词嵌入(Word Embeddings):分词之后,每个Token会被转换成一个由数字组成的向量(可以想象成一组多维空间中的坐标)。这个过程就是词嵌入。通过大量训练,模型能够确保**语义相近的词,其空间坐标也相近**。比如,"国王"和"女王"的坐标会很接近,而"国王"和"香蕉"的坐标则会很远。这样,AI就能通过数学计算来捕捉词语之间的语义关系。
(3)参数(Parameters)与权重(Weights):这是模型内部所有可学习变量的总称,是模型知识的载体。
参数:一个拥有数千亿参数的模型,就意味着它内部有数千亿个这样的变量。训练模型的过程,本质上就是利用海量数据,不断调整这些参数的数值,让模型能够做出最准确的预测。
权重:是参数的核心部分,用于决定输入数据中各个特征的重要性。在训练过程中,模型会不断调整权重,以使输出结果更接近目标。例如,在一个预测房价的AI模型中,卧室数量、地理位置等特征的权重值,就直接反映了它们对房价的影响程度。
(4)上下文长度(Context Length):这决定了AI在一次对话中的"短期记忆"容量。它指的是模型单次能处理的最大Token数量。比如,一个模型的上下文长度是4K,意味着它一次最多能处理大约三千个汉字的内容。如果输入或对话超出了这个长度,它就会"忘记"最开始的部分。扩展上下文长度是当前模型研发的重点之一,更长的"记忆"意味着能处理更复杂的任务,比如分析整本书或一个完整的代码库。
四、学习之路——AI如何获取知识与能力
有了技术架构和信息处理方法,AI模型还需要通过"学习"来获取能力。这个过程涉及不同的学习范式和关键技术。
(1)机器学习的三大范式:从学习方式上,AI的训练过程主要可以分为三类。
监督学习(Supervised Learning):这是最常见的范式。我们给模型提供大量带有"正确答案"的"例题"(即有标签的数据),比如给它看一千张猫的图片,并明确告诉它"这是猫"。模型通过学习这些例题,总结出规律,以便将来能自己判断没有见过的图片。我们后面提到的"微调"就属于监督学习。
无监督学习(Unsupervised Learning):我们只给模型大量数据,但不给任何标签或答案,让模型自己去发现数据中潜在的结构和模式。比如,给模型大量的新闻文章,让它自己把这些文章聚类成"体育"、"财经"、"科技"等不同类别。我们提到的"预训练"阶段,本质上就是一种无监督学习。
强化学习(Reinforcement Learning, RL):这是AI学习决策和行动能力的核心范式。它模仿了生物的奖励与惩罚机制。我们把AI(称为"智能体")放入一个环境中(如游戏或模拟器),它需要不断地尝试各种"行动"。当它做出好的行动时,我们给它"奖励";做出坏的行动时,则给予"惩罚"。通过最大化累计奖励,AI能逐步学会一套最优的行为策略。AI下棋、玩游戏以及我们后面提到的RLHF都依赖于强化学习。
(2)训练(Training)与推理(Inference):这是AI模型生命周期的两个核心阶段。
训练:指通过向模型输入大量数据,让其学习数据中的模式和规律的过程。具体来说,模型会先做出一个预测,然后将预测结果与真实答案进行比较,这个差异就是损失(Loss)。训练的目标,就是通过不断调整内部参数(权重),来让这个"损失"变得尽可能小(即最小化损失函数)。这个过程需要海量的数据和强大的计算资源。
推理:指使用已经训练好的模型,对新的、未见过的数据进行预测或生成结论的过程。我们日常使用ChatGPT等工具,就是在进行推理。推理过程也需要硬件支持,模型越大,对硬件要求越高。
(3)过拟合(Overfitting):这是机器学习中一个常见且关键的问题。它指的是模型在训练数据上表现得过于完美,以至于把训练数据中的噪声和偶然特征都当作了通用规律来学习。这会导致模型"死记硬背"了训练集,但在面对新的、未见过的数据时,表现会非常差,失去了泛化能力。就像一个学生只会做教科书上的原题,题目稍微变一下就不会了。
(4)预训练(Pre-training):可以理解为AI的基础通识学习阶段。在这个阶段,模型会"阅读"海量的、未标注的互联网数据,唯一的学习任务就是"预测下一个词"。通过数万亿次的这种练习,模型逐渐掌握了语法、事实知识、逻辑关系,构建了对世界的基本认知。这个过程需要巨大的计算资源,成本非常高。
(5)微调(Fine-tuning):可以看作是针对性的专业训练。在预训练产生的基础模型之上,开发者会使用特定领域的高质量、有标注的数据对模型进行"加餐"。例如,用大量法律文书来微调一个基础模型,就能得到一个更懂法律的AI助手。微调所需的资源远少于预训练,但能让模型在特定任务上表现得更好。
(6)迁移学习(Transfer Learning):这是一项重要的效率提升技术。它利用一个已经训练好的模型作为起点,来开发一个用于相关新任务的模型。这样做可以大大节省从零开始训练所需的时间和成本,尤其是在新任务数据量有限的情况下。微调就是迁移学习的一种典型应用。
(7)知识蒸馏(Distillation):一种模型优化的技术,旨在将一个大型、复杂的"教师模型"的知识,迁移到一个更小、更高效的"学生模型"中。具体做法是,用教师模型的输出(而非原始数据)来训练学生模型,让学生模型模仿教师模型的"思考"方式。这项技术可以创造出更轻量、运行速度更快的模型。
(8)人类反馈强化学习(RLHF):这更像是对AI进行行为和价值观的校准。为了让AI的回答更有用、更诚实、更无害,需要引入人类的判断。训练师会对模型生成的多个答案进行好坏排序,然后用这些排序数据训练一个"奖励模型"。最后,再通过强化学习的方式,让AI模型不断调整自己的回答风格,以期获得"奖励模型"的更高分。这个过程,本质上是在教AI如何更好地与人沟通,使其输出内容更符合人类的期望和规范。
五、应用之道——如何更有效地使用AI
学会了AI如何炼成,我们还需要知道如何更好地使用它。
(1)提示工程(Prompt Engineering):这是一门关于如何向AI提问和下指令的学问。通过精心设计我们输入给AI的指令(Prompt),可以更好地引导它产出我们想要的结果。一个好的提示词,就像一个好的项目需求文档,能把任务描述得清晰、具体,从而让AI更好地理解和执行。
(2)思维链(Chain-of-Thought, CoT):这是一种高级的提示技巧。当面对一个复杂问题时,不直接问AI要答案,而是要求它"一步一步地思考,展示你的推理过程"。例如,对于"农场有鸡和牛,共40个头、120条腿,问鸡和牛各有多少?"这类问题,引导AI列出思考步骤能显著提高其正确率。这种方式能引导AI模仿人类的逻辑思维,显著提高它在复杂推理任务上的准确率。
(3)检索增强生成(RAG):这是一种解决AI"知识陈旧"和"胡说八道"(即幻觉)问题的有效技术,相当于让AI进行"开卷考试"。当用户提问时,系统不是直接让AI回答,而是先从一个外部的、可信的知识库(如公司的内部文档、最新的新闻数据库)中检索出相关信息,然后将这些信息和问题一起交给AI,让它参考这些资料来生成答案。这大大提升了回答的准确性和时效性。
(4)AI智能体(AI Agent):这是AI应用的一个重要发展方向。它不再是被动问答的工具,而是能自主理解目标、制定计划、并调用工具(如软件API、数据库)来执行多步骤复杂任务的"行动者"。例如,你可以对一个旅行Agent说:"帮我规划一次下周末去北京的两人旅行,预算5000元",它就能自主地查询航班、预订酒店、规划行程。更进一步,AI Agent还可以处理报销、维护代码等更复杂的任务。
(5)模型上下文协议(MCP):如果说AI Agent是"行动者",那么MCP就是为这些"行动者"铺设的"通用轨道"。它是一种开放的通信协议,旨在为AI模型与外部工具(如API、数据库、本地文件)之间建立一种标准化的连接方式。在MCP出现之前,AI每次调用一个新工具都需要进行定制化的开发;而有了MCP,就像拥有了AI世界的"USB-C"接口,模型可以轻松、安全地与成千上万遵循该协议的工具进行交互,这极大地降低了开发成本,是构建强大AI Agent和开放工具生态的基础。
六、伦理与安全——需要关注的风险
技术飞速发展的同时,我们也必须正视其带来的风险。
(1)幻觉(Hallucination)与偏见(Bias):这是当前AI最常见的两个缺陷。
幻觉:指AI会一本正经地编造一些不存在的事实。其根源通常在于训练数据的知识存在空白或不完整,导致模型在面对不确定的问题时倾向于"创作"而非承认"不知道"。
偏见:指AI可能会从训练数据中学到并放大人类社会中已有的刻板印象(如关于性别、地域的歧视)。
认识到这两点,我们才能对AI的输出保持必要的审视和警惕。
(2)对齐(Alignment):这是一个核心的安全与伦理议题,研究如何确保AI系统的目标、行为和价值观与人类社会的整体利益保持一致。我们前面提到的RLHF,就是对齐技术的一种具体应用。
(3)红队测试(Red Teaming):这是一种"模拟攻击"式的安全测试方法。安全专家会扮演"红队",像黑客一样用各种方式攻击AI模型,试图诱导它产生有害或不当的输出。通过这种对抗性测试,可以提前发现并修复模型的安全漏洞。
(4)可解释性AI(Explainable AI, XAI):旨在解决AI"黑箱"问题的研究领域。XAI致力于开发技术和方法,让我们能够理解AI模型为什么会做出某个特定的决策或预测。这对于在金融、医疗、自动驾驶等高风险领域的应用至关重要,是建立用户信任、实现可靠监管的基础。
七、前沿展望——AI的未来方向
除了上述已经广泛应用的技术和概念,AI领域还有几个令人兴奋的前沿方向正在被积极探索。
(1)世界模型(World Model):这是实现更高级别人工智能的关键路径之一。世界模型指的是一个能够在内部模拟世界运作方式的AI系统。它不仅仅是学习数据中的表面统计规律,更是试图理解世界背后的物理规则、因果关系和逻辑链条。拥有了世界模型,AI就能在"脑内"对未来的多种可能性进行推演和规划,从而做出更有远见的决策,这被认为是通往自主智能的重要一步。
(2)多模态AI(Multimodal AI):指的是能够同时理解和处理多种信息类型(模态)的AI系统,例如文本、图像、音频、视频等。我们正在从只能与AI进行文字对话,迈向一个可以给它看一张图片、听一段声音,并让它理解和生成相应内容的新时代。像GPT-4V、Google的Gemini以及文生视频模型Sora,都是多模态AI的典型代表,这使得AI的应用场景变得空前广阔。
(3)具身智能(Embodied AI):这是将AI智能与物理实体(如机器人)相结合的研究领域。与纯粹存在于数字世界的AI不同,具身智能需要通过传感器感知真实世界,并通过执行器与环境进行交互。这种与物理世界的直接互动,被认为是AI学习常识、理解因果关系的根本途径,是让AI从一个"博学的网友"成长为一个"能干的帮手"的关键。
结语:从使用者到理解者
通过以上七个部分的梳理,希望AI在你眼中不再那么神秘。从AGI的远大目标,到Token的微观处理;从深度学习的基石,到世界模型的前沿探索,我们看到的是一个由多种技术和工程方法构建起来的复杂系统。
理解这些基本概念,不仅是为了满足好奇心。它能让我们在使用AI时,更清楚它的能力和局限;能让我们在面对AI带来的社会变化时,多一份理性的判断,少一些盲目的跟风;也能让我们更深入地思考人与AI的关系。
这,或许就是这份入门指南最重要的价值所在。
看到这里了还不给博主点一个:
⛳️ 点赞
☀️收藏
⭐️ 关注
!
💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖
再次感谢大家的支持!
你们的点赞就是博主更新最大的动力!