Q学习例子

本文通过一个建筑物中5个房间的例子,解释了Q学习如何帮助机器人从状态2学习到达目标状态5。介绍了Q-table的初始化和更新过程,通过不断随机选择初始状态并根据R-table进行转移,逐步优化Q-table,最终实现无监督学习的目标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

假设建筑物中有5个房间,如上图所示。我们将每个房间的编号设为0到4.建筑物的外部可以被认为是一个大房间(5)。当然,5号房间的回报率为100,其他所有与目标房间的直接连接奖励为100。

Q(1,5)= R(1,5)+ 0.8 * Max [] = 100 + 0.8 * 0 = 100

机器人从状态2开始,我们希望他能够学习到房子外面状态5。

状态列表:
状态0可到达
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值