1、强化学习入门:AI 智能体背后的智慧

强化学习入门:AI 智能体背后的智慧

1. 什么是人工智能以及强化学习与它有何关系

从不同组织的营销角度来看,人工智能可能涵盖了从传统分析到更前沿的深度学习和聊天机器人等各种系统。但从技术上讲,人工智能(AI)术语的使用仅限于对能够“人性化”行动的“理性”智能体的研究和设计。不同研究者和作者对人工智能给出了众多定义,判定一个智能体为 AI 智能体的标准是它应具备“思考过程和推理能力”、“智能行为”、“在人类表现方面取得成功”以及“理性”。这一标准有助于我们从营销炒作中辨别出真正的人工智能系统和应用。

在众多人工智能智能体中,强化学习智能体被认为是最先进的,能够展现出高度的智能和理性行为。强化学习智能体与环境进行交互,环境本身可以呈现多种状态。智能体对环境采取行动以改变其状态,同时根据所达成的状态和自身目标获得奖励或惩罚。这个定义看似简单,但背后的概念推动了许多先进 AI 智能体的发展,使其能够执行非常复杂的任务,有时甚至在特定任务上挑战人类的表现。

2. 理解强化学习的基本设计

下图展示了强化学习系统的基本设计,包含“学习”和“行动”循环。智能体与环境交互,在步骤 t 时,根据环境所处的给定状态(St)学习采取最佳可能行动(at)。智能体的行动会将环境状态从 St 改变为 St+1,并为智能体生成奖励 rt。然后,智能体针对新状态(St+1)采取最佳可能行动,从而引发奖励 rt+1,依此类推。在一系列迭代(在智能体的训练过程中称为实验)中,智能体利用训练过程中获得的奖励来改进其在给定环境状态下选择“最佳行动”的决策。

graph LR
    classDef starte
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值