基于微行为的视觉运动行为建模
在研究人类视觉运动行为时,我们可以借助图形化代理来构建相关理论模型。下面将详细介绍基于微行为的建模方法,包括微行为的学习、仲裁和选择等方面。
1. 微行为学习
在计算出状态信息后,接下来的步骤是找到合适的动作。每个微行为都在状态/动作表中存储动作,这些表可以通过奖励最大化算法来学习。例如,在模拟中,代理会尝试不同的动作,并记住在表中效果最佳的动作。
正式来说,每个微行为的任务是将相关环境状态的估计值 $s$ 映射到离散动作集合 $A$ 中的一个动作 $a$,以最大化所获得的奖励。以避障行为为例,它将到最近障碍物的距离和方向 $s = (d, \theta)$ 映射到三个可能的转弯角度之一,即 $A = {−15^{\circ}, 0^{\circ}, 15^{\circ}}$。策略就是为每个状态规定的动作,这种粗略的动作空间简化了学习问题。
我们计算特定行为的最优策略的方法基于标准的强化学习算法——Q学习。该算法为每个微行为中的所有状态 - 动作组合学习一个值函数 $Q(s, a)$。$Q$ 函数表示在状态 $s$ 下采取动作 $a$ 并随后遵循最优策略时的预期折扣回报。如果知道 $Q(s, a)$,学习代理可以通过始终选择 $\arg \max_a Q(s, a)$ 来实现最优行为。
以下是Q学习的更新规则:
$Q(s, a) \leftarrow (1 - \alpha)Q(s, a) + \alpha(r + \gamma \max_{a’} Q(s’, a’))$
其中,$\alpha \in (0, 1)$ 是学习率参数,$\gamma \in (0, 1)$ 是决定未来奖励折扣程
超级会员免费看
订阅专栏 解锁全文
23万+

被折叠的 条评论
为什么被折叠?



