多智能体强化学习(二)简介

多智能体强化学习(一)简介

机器学习可以被认为是将数据转化为知识的过程。学习算法的输入是训练数据(例如,包含猫的图像),输出是一些知识(例如,关于如何检测图像中的猫的规则)。此知识通常表示为可执行特定任务的计算机程序(例如,自动猫检测器)。在过去的十年中,通过一种特殊的机器学习技术取得了相当大的进展:深度学习(LeCun等人,2015)。深度学习的关键实施例之一是不同类型的深度神经网络(DNNs)(Schmidhuber,2015),它可以在高维数据中找到解纠缠表示(Bengio,2009),它允许软件训练自己执行新任务,而不仅仅依赖程序员来设计手工设计的规则。通过使用DNNs,在现实人工智能应用中取得了不可数的突破,计算机视觉领域(克里日耶夫斯基等,2012)和自然语言处理(Brown等,2020;Devlin等,2018)是最大的受益者。

除了对现有数据的特征识别外,现代人工智能应用程序通常需要计算机程序根据所获得的知识做出决策(见图1)
在这里插入图片描述
为了说明决策的关键组成部分,让我们考虑一下控制汽车安全驾驶通过十字路口的现实例子。在每一个时间步长中,机器人汽车都可以通过转向、加速和制动来移动。目标是安全离开十字路口并到达目的地(可能会决定直行或向左/右转进入另一条车道)。因此,除了能够检测目标,如交通灯、车道标记和其他车辆(通过将数据转换为知识),我们的目标是找到一个转向策略,可以控制汽车进行一系列操作,以实现目标(根据所获得的知识做出决策)。在这样的决策环境中,还会出现另外两个挑战:

  1. 首先,在决策过程中,在每个时间步骤中,机器人汽车不仅应该考虑其当前行动的直接价值,还应该考虑其未来当前行动的后果。例如,如果你开车通过一个十字路口,在整个过程开始时选择转向“安全”方向但是最后会撞车的政策将是有害的。
  2. 第二,要正确安全地做出每个决定,汽车还必须考虑其他汽车
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值