Chapter 2: 智能体发展史 (Part 4: 学习范式的演进)

原创于 2026-01-05 10:00:00 发布 · 546 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

Agent 专栏收录该内容

16 篇文章

订阅专栏

前文的“心智社会”在哲学层面指明了去中心化协作的方向，但符号主义在处理真实世界复杂性时依然举步维艰。这两条线索指向了一个终极问题：如果智能无法被完全“设计”出来，那么它是否可以被“学习”出来？

2.4 学习范式的演进与现代智能体

这一设问开启了人工智能的“学习”时代。其核心目标不再是手动编码知识，而是构建能从经验和数据中自动获取知识与能力的系统。

2.4.1 从符号到联结

作为对符号主义局限性的直接回应，联结主义 (Connectionism) 在 20 世纪 80 年代重新兴起。与符号主义自上而下的设计哲学不同，联结主义是一种自下而上的方法，其灵感来源于对生物大脑神经网络结构的模仿。

核心思想

知识的分布式表示：知识并非以明确的符号或规则存储，而是以连接权重 (Weights) 的形式，分布式地存储在大量简单的处理单元（人工神经元）的连接之间。
简单的处理单元：每个神经元只执行非常简单的计算（加权求和激活函数），然后输出给下一个神经元。
通过学习调整权重：系统的智能源于“学习”。通过接触大量样本，利用算法（如反向传播）迭代调整权重，使网络输出接近目标。

范式对比：设计 vs 学习

在这种范式下，智能体不再是执行规则的逻辑推理机，而是通过经验自我优化的适应性系统。

图 2.7 符号主义与联结主义范式对比 (Mermaid 还原)

💡 深度解析：感知的突破
联结主义（特别是后来的深度学习）解决了符号主义时代难以想象的感知问题。它能直接从原始像素理解“这是一只猫”，而不需要人工编写“猫有尖耳朵、胡须”等数千条规则。

2.4.2 基于强化学习的智能体

联结主义主要解决了“感知”（What is this?），但智能体更核心的任务是“决策”（What should I do?）。强化学习 (Reinforcement Learning, RL) 正是专注于解决序贯决策问题的学习范式。

它不依赖标注好的静态数据，而是让智能体在与环境的**“试错”**中学习如何最大化长期收益。

经典案例：AlphaGo。它通过自我对弈，根据胜负（奖励信号）不断调整策略，学会了在何种棋局下（状态）落子（行动）能最终获胜。

强化学习核心要素

智能体 (Agent)：学习者和决策者。
环境 (Environment)：外部的一切，交互对象。
状态 (State, $S$ )：对环境在某一时刻的描述（如棋盘布局）。
行动 (Action, $A$ )：智能体采取的操作。
奖励 (Reward, $R$ )：环境反馈的标量信号，评价行动的好坏（如赢+1，输-1）。

核心交互循环

智能体在一个“感知-行动-学习”的闭环中持续迭代。

循环步骤详解

1.观察：在时间步 $t$ ，智能体观察到状态 $S_t$ 。
2.决策：基于 $S_t$ ，智能体根据策略 (Policy, $π\pi$ ) 选择一个行动 $A_t$ ，并执行它。
3.转移：环境接收 $A_t$ 后，会转移到一个新的状态 $S_{t+1}$ 。
4.反馈：同时，环境会反馈给智能体一个即时奖励 $R_{t+1}$ 。
5.学习：智能体利用反馈（新状态 $S_{t+1}$ 和奖励 $R_{t+1}$ ）来更新和优化其内部策略。

💡 注解：长期主义
RL 的核心难点在于延迟满足。智能体的目标是最大化累积奖励 (Return)，通常表示为。这意味着它必须学会“弃子争先”——为了未来的大胜，牺牲当前的即时奖励。

2.4.3 基于大规模数据的预训练

强化学习虽然强大，但通常需要海量交互数据，且智能体往往是“白板”开局，缺乏常识。如何让智能体在开始任务前就具备对世界的广泛理解？
答案是：基于大规模数据的预训练 (Pre-training)。

从特定任务到通用模型

在预训练范式出现前，NLP 模型通常是为单一特定任务（如翻译）从零训练的。这导致知识无法泛化，且标注成本高昂。
预训练与微调 (Pre-training & Fine-tuning) 彻底改变了这一现状。

图 2.9 “预训练-微调”范式示意图 (Mermaid 还原)

预训练阶段：

数据：互联网级别海量文本。
机制：自监督学习 (Self-supervised Learning)。无需人工标注，目标通常是简单的“预测下一个词”。
产出：学习到语言规律、事实知识和逻辑结构的基础模型。

微调阶段：

针对下游任务，使用少量标注数据让模型适应特定场景。

涌现能力 (Emergent Abilities)

当模型规模跨越某个阈值后，它们展现出了未被直接训练的惊人能力：

上下文学习 (In-context Learning)：无需调整权重，仅通过输入中的几个示例 (Few-shot) 甚至零示例 (Zero-shot) 就能完成新任务。
思维链 (Chain-of-Thought) 推理：引导模型输出中间推理步骤，显著提升逻辑和算术能力。

💡 深度解析：拼图完成
至此，现代智能体的所有技术拼图已集齐：

符号主义：提供了逻辑推理的框架（CoT 本质上是神经系统里的符号推理）。
联结主义 & RL：提供了学习与决策能力。
LLM：提供了前所未有的世界知识库和通用推理引擎。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。