机器人行为生成与数学天赋相关神经效率的研究
1. 机器人行为生成研究
1.1 研究背景与框架
在机器人行为研究领域,预测性大脑假说最初应用于感知领域,后扩展到行动生成。规划即推理(PAI)框架将目标导向行为解释为推理问题,在该框架中,每个状态的决策遵循概率分布,此分布由当前状态的证据和目标状态达成的预期证据推断得出。
1.2 实验材料与方法
- 机器人与训练任务
- 使用一个带有三个手指的机器人手,每个手指的位置状态是 0.0(完全折叠)到 1.0(完全张开)之间的实数。手指有三种动作状态:折叠、保持和张开,分别对应 0.0、0.5 和 1.0。机器人手的状态由一个包含六个实数值的向量表示,该向量是动作状态和位置状态的拼接。
- 每 0.2 秒对机器人的动作和位置进行采样,动作信号在采样中间传递给机器人控制系统。一个状态样本包含当前时间的动作和动作步骤中间的位置。
- 生成基本动作序列来训练分层记忆系统,基本动作序列代表了发育系统的固有和物理动作约束。随机为每个手指选择动作,每个动作以 1/3 的概率延续到下一步。
- 分层时间记忆的状态推断
- 分层时间记忆(HTM)用于预测性分层记忆系统,它是一种时空模式的分层记忆,更高层区域存储更抽象、更长的时空模式。
- 每个 HTM 区域有两个模块:空间池化器和时间池化器。空间池化器存储来自子节点的前馈状态的独特“空间模式”,时间池化器存储空间模式之间