前文的“心智社会”在哲学层面指明了去中心化协作的方向,但符号主义在处理真实世界复杂性时依然举步维艰。这两条线索指向了一个终极问题:如果智能无法被完全“设计”出来,那么它是否可以被“学习”出来?
2.4 学习范式的演进与现代智能体
这一设问开启了人工智能的“学习”时代。其核心目标不再是手动编码知识,而是构建能从经验和数据中自动获取知识与能力的系统。
2.4.1 从符号到联结
作为对符号主义局限性的直接回应,联结主义 (Connectionism) 在 20 世纪 80 年代重新兴起。与符号主义自上而下的设计哲学不同,联结主义是一种自下而上的方法,其灵感来源于对生物大脑神经网络结构的模仿。
核心思想
- 知识的分布式表示:知识并非以明确的符号或规则存储,而是以连接权重 (Weights) 的形式,分布式地存储在大量简单的处理单元(人工神经元)的连接之间。
- 简单的处理单元:每个神经元只执行非常简单的计算(加权求和 激活函数),然后输出给下一个神经元。
- 通过学习调整权重:系统的智能源于“学习”。通过接触大量样本,利用算法(如反向传播)迭代调整权重,使网络输出接近目标。
范式对比:设计 vs 学习
在这种范式下,智能体不再是执行规则的逻辑推理机,而是通过经验自我优化的适应性系统。
图 2.7 符号主义与联结主义范式对比 (Mermaid 还原)
💡 深度解析:感知的突破
联结主义(特别是后来的深度学习)解决了符号主义时代难以想象的感知问题。它能直接从原始像素理解“这是一只猫”,而不需要人工编写“猫有尖耳朵、胡须”等数千条规则。
2.4.2 基于强化学习的智能体
联结主义主要解决了“感知”(What is this?),但智能体更核心的任务是“决策”(What should I do?)。强化学习 (Reinforcement Learning, RL) 正是专注于解决序贯决策问题的学习范式。
它不依赖标注好的静态数据,而是让智能体在与环境的**“试错”**中学习如何最大化长期收益。
- 经典案例:AlphaGo。它通过自我对弈,根据胜负(奖励信号)不断调整策略,学会了在何种棋局下(状态)落子(行动)能最终获胜。
强化学习核心要素
- 智能体 (Agent):学习者和决策者。
- 环境 (Environment):外部的一切,交互对象。
- 状态 (State,SSS ):对环境在某一时刻的描述(如棋盘布局)。
- 行动 (Action,AAA ):智能体采取的操作。
- 奖励 (Reward,RRR):环境反馈的标量信号,评价行动的好坏(如赢+1,输-1)。
核心交互循环
智能体在一个“感知-行动-学习”的闭环中持续迭代。
循环步骤详解
- 1.观察:在时间步 ttt,智能体观察到状态 StS_tSt。
- 2.决策:基于 StS_tSt,智能体根据策略 (Policy, π\piπ) 选择一个行动 AtA_tAt,并执行它。
- 3.转移:环境接收 AtA_tAt 后,会转移到一个新的状态 St+1S_{t+1}St+1。
- 4.反馈:同时,环境会反馈给智能体一个即时奖励 Rt+1R_{t+1}Rt+1。
- 5.学习:智能体利用反馈(新状态 St+1S_{t+1}St+1 和奖励 Rt+1R_{t+1}Rt+1)来更新和优化其内部策略。
💡 注解:长期主义
RL 的核心难点在于延迟满足。智能体的目标是最大化累积奖励 (Return),通常表示为 。这意味着它必须学会“弃子争先”——为了未来的大胜,牺牲当前的即时奖励。
2.4.3 基于大规模数据的预训练
强化学习虽然强大,但通常需要海量交互数据,且智能体往往是“白板”开局,缺乏常识。如何让智能体在开始任务前就具备对世界的广泛理解?
答案是:基于大规模数据的预训练 (Pre-training)。
从特定任务到通用模型
在预训练范式出现前,NLP 模型通常是为单一特定任务(如翻译)从零训练的。这导致知识无法泛化,且标注成本高昂。
预训练与微调 (Pre-training & Fine-tuning) 彻底改变了这一现状。
图 2.9 “预训练-微调”范式示意图 (Mermaid 还原)
- 预训练阶段:
- 数据:互联网级别海量文本。
- 机制:自监督学习 (Self-supervised Learning)。无需人工标注,目标通常是简单的“预测下一个词”。
- 产出:学习到语言规律、事实知识和逻辑结构的基础模型。
- 微调阶段:
- 针对下游任务,使用少量标注数据让模型适应特定场景。
涌现能力 (Emergent Abilities)
当模型规模跨越某个阈值后,它们展现出了未被直接训练的惊人能力:
- 上下文学习 (In-context Learning):无需调整权重,仅通过输入中的几个示例 (Few-shot) 甚至零示例 (Zero-shot) 就能完成新任务。
- 思维链 (Chain-of-Thought) 推理:引导模型输出中间推理步骤,显著提升逻辑和算术能力。
💡 深度解析:拼图完成
至此,现代智能体的所有技术拼图已集齐:
- 符号主义:提供了逻辑推理的框架(CoT 本质上是神经系统里的符号推理)。
- 联结主义 & RL:提供了学习与决策能力。
- LLM:提供了前所未有的世界知识库和通用推理引擎。
1236

被折叠的 条评论
为什么被折叠?



