Chapter 2: 智能体发展史 (Part 4: 学习范式的演进)

前文的“心智社会”在哲学层面指明了去中心化协作的方向,但符号主义在处理真实世界复杂性时依然举步维艰。这两条线索指向了一个终极问题:如果智能无法被完全“设计”出来,那么它是否可以被“学习”出来?

2.4 学习范式的演进与现代智能体

这一设问开启了人工智能的“学习”时代。其核心目标不再是手动编码知识,而是构建能从经验和数据中自动获取知识与能力的系统。

2.4.1 从符号到联结

作为对符号主义局限性的直接回应,联结主义 (Connectionism) 在 20 世纪 80 年代重新兴起。与符号主义自上而下的设计哲学不同,联结主义是一种自下而上的方法,其灵感来源于对生物大脑神经网络结构的模仿。

核心思想

  1. 知识的分布式表示:知识并非以明确的符号或规则存储,而是以连接权重 (Weights) 的形式,分布式地存储在大量简单的处理单元(人工神经元)的连接之间。
  2. 简单的处理单元:每个神经元只执行非常简单的计算(加权求和 激活函数),然后输出给下一个神经元。
  3. 通过学习调整权重:系统的智能源于“学习”。通过接触大量样本,利用算法(如反向传播)迭代调整权重,使网络输出接近目标。
范式对比:设计 vs 学习

在这种范式下,智能体不再是执行规则的逻辑推理机,而是通过经验自我优化的适应性系统。

图 2.7 符号主义与联结主义范式对比 (Mermaid 还原)

联结主义范式 (Connectionism)

输入

隐层

隐层

输出

符号主义范式 (Symbolism)

知识库
(规则)

推理机

💡 深度解析:感知的突破
联结主义(特别是后来的深度学习)解决了符号主义时代难以想象的感知问题。它能直接从原始像素理解“这是一只猫”,而不需要人工编写“猫有尖耳朵、胡须”等数千条规则。


2.4.2 基于强化学习的智能体

联结主义主要解决了“感知”(What is this?),但智能体更核心的任务是“决策”(What should I do?)。强化学习 (Reinforcement Learning, RL) 正是专注于解决序贯决策问题的学习范式。

它不依赖标注好的静态数据,而是让智能体在与环境的**“试错”**中学习如何最大化长期收益。

  • 经典案例:AlphaGo。它通过自我对弈,根据胜负(奖励信号)不断调整策略,学会了在何种棋局下(状态)落子(行动)能最终获胜。

强化学习核心要素

  • 智能体 (Agent):学习者和决策者。
  • 环境 (Environment):外部的一切,交互对象。
  • 状态 (State,SSS ):对环境在某一时刻的描述(如棋盘布局)。
  • 行动 (Action,AAA ):智能体采取的操作。
  • 奖励 (Reward,RRR):环境反馈的标量信号,评价行动的好坏(如赢+1,输-1)。
核心交互循环

智能体在一个“感知-行动-学习”的闭环中持续迭代。

交互循环 (Interaction Loop)

Action ($A_t$)

State ($S_t$) / Reward ($R_t$)

Next State ($S_{t+1}$) / Reward ($R_{t+1}$)

Agent
(智能体/策略)

Environment
(环境)

循环步骤详解

  • 1.观察:在时间步 ttt,智能体观察到状态 StS_tSt
  • 2.决策:基于 StS_tSt,智能体根据策略 (Policy, π\piπ) 选择一个行动 AtA_tAt,并执行它。
  • 3.转移:环境接收 AtA_tAt 后,会转移到一个新的状态 St+1S_{t+1}St+1
  • 4.反馈:同时,环境会反馈给智能体一个即时奖励 Rt+1R_{t+1}Rt+1
  • 5.学习:智能体利用反馈(新状态 St+1S_{t+1}St+1 和奖励 Rt+1R_{t+1}Rt+1)来更新和优化其内部策略。

💡 注解:长期主义
RL 的核心难点在于延迟满足。智能体的目标是最大化累积奖励 (Return),通常表示为 。这意味着它必须学会“弃子争先”——为了未来的大胜,牺牲当前的即时奖励。


2.4.3 基于大规模数据的预训练

强化学习虽然强大,但通常需要海量交互数据,且智能体往往是“白板”开局,缺乏常识。如何让智能体在开始任务前就具备对世界的广泛理解?
答案是:基于大规模数据的预训练 (Pre-training)

从特定任务到通用模型

在预训练范式出现前,NLP 模型通常是为单一特定任务(如翻译)从零训练的。这导致知识无法泛化,且标注成本高昂。
预训练与微调 (Pre-training & Fine-tuning) 彻底改变了这一现状。

图 2.9 “预训练-微调”范式示意图 (Mermaid 还原)

Fine-tuning Stage (微调阶段)

Pre-training Stage (预训练阶段)

General text data
(海量通用语料)

Self-supervised Learning
(自监督学习)

Basic Model / LLM
(基础模型)

Task A Data

Task B Data

Task C Data

Fine-tuning

Task A Model

Task B Model

Task C Model

  1. 预训练阶段
  • 数据:互联网级别海量文本。
  • 机制自监督学习 (Self-supervised Learning)。无需人工标注,目标通常是简单的“预测下一个词”。
  • 产出:学习到语言规律、事实知识和逻辑结构的基础模型。
  1. 微调阶段
  • 针对下游任务,使用少量标注数据让模型适应特定场景。
涌现能力 (Emergent Abilities)

当模型规模跨越某个阈值后,它们展现出了未被直接训练的惊人能力:

  • 上下文学习 (In-context Learning):无需调整权重,仅通过输入中的几个示例 (Few-shot) 甚至零示例 (Zero-shot) 就能完成新任务。
  • 思维链 (Chain-of-Thought) 推理:引导模型输出中间推理步骤,显著提升逻辑和算术能力。

💡 深度解析:拼图完成
至此,现代智能体的所有技术拼图已集齐:

  • 符号主义:提供了逻辑推理的框架(CoT 本质上是神经系统里的符号推理)。
  • 联结主义 & RL:提供了学习与决策能力。
  • LLM:提供了前所未有的世界知识库通用推理引擎
基于STM32 F4的永磁同步电机无位置传感器控制策略研究内容概要:本文围绕基于STM32 F4的永磁同步电机(PMSM)无位置传感器控制策略展开研究,重点探讨在不依赖物理位置传感器的情况下,如何通过算法实现对电机转子位置和速度的精确估计与控制。文中结合嵌入式开发平台STM32 F4,采用如滑模观测器、扩展卡尔曼滤波或高频注入法等先进观测技术,实现对电机反电动势或磁链的估算,进而完成无传感器矢量控制(FOC)。同时,研究涵盖系统建模、控制算法设计、仿真验证(可能使用Simulink)以及在STM32硬件平台上的代码实现与调试,旨在提高电机控制系统的可靠性、降低成本并增强环境适应性。; 适合人群:具备一定电力电子、自动控制理论基础和嵌入式开发经验的电气工程、自动化及相关专业的研究生、科研人员及从事电机驱动开发的工程师。; 使用场景及目标:①掌握永磁同步电机无位置传感器控制的核心原理与实现方法;②学习如何在STM32平台上进行电机控制算法的移植与优化;③为开发高性能、低成本的电机驱动系统提供技术参考与实践指导。; 阅读建议:建议读者结合文中提到的控制理论、仿真模型与实际代码实现进行系统学习,有条件者应在实验平台上进行验证,重点关注观测器设计、参数整定及系统稳定性分析等关键环节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值