假设建筑物中有5个房间,如上图所示。我们将每个房间的编号设为0到4.建筑物的外部可以被认为是一个大房间(5)。当然,5号房间的回报率为100,其他所有与目标房间的直接连接奖励为100。 Q(1,5)= R(1,5)+ 0.8 * Max [] = 100 + 0.8 * 0 = 100 机器人从状态2开始,我们希望他能够学习到房子外面状态5。 状态列表: 状态0可到达