基于模仿和主动推理的自动驾驶与机器学习在铣削力重建中的应用
基于模仿和主动推理的自动驾驶
- 离线学习阶段
- 利用最近邻特征滤波器(NFF)作为数据的初始过滤器来构建情境模型。NFF 提供的广义特征(GEs)通过生长神经气体(GNG)进行聚类,输出一组离散的聚类,这些聚类代表了由主体(E)和客体(O)生成的轨迹的离散区域。
- 联合聚类引入了一组配置,这些配置对主体之间的交互行为进行编码。
- 在线学习阶段
- 学习主体(L)采用固定点(FP)模型作为先验信念,以模仿预期的转换。在在线阶段,通过平衡探索 - 利用权衡,L 的行动被用于解决新动态环境导致的行动选择的不确定方面,从而调整 L 的假设。
- 实验在模拟环境中进行,通过 500 个不同起始位置的情节来训练学习主体 L。每个情节包含 10 次迭代,即 L 通过 500 个不同的起始位置尝试 5000 次迭代来学习策略。
- 性能评估
- 经过试验阶段,L 获得了关于意外情况的知识,生成模型中的似然映射与参考生成过程和目标目标(例如,超越动态对象)充分对齐。
- 图 3-(a) 表明 L 的运动是连贯进行的,这导致在每个试验时期(例如,每个情节)的探索较少。此外,图 3-(a) 比较了使用不同学习方法在训练期间执行的动作数量,显示使用所提出的方法时,L 完成任务所需的动作比其他方法少。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



