4、基于模仿和主动推理的自动驾驶与机器学习在铣削力重建中的应用

基于模仿和主动推理的自动驾驶与机器学习在铣削力重建中的应用

基于模仿和主动推理的自动驾驶
  1. 离线学习阶段
    • 利用最近邻特征滤波器(NFF)作为数据的初始过滤器来构建情境模型。NFF 提供的广义特征(GEs)通过生长神经气体(GNG)进行聚类,输出一组离散的聚类,这些聚类代表了由主体(E)和客体(O)生成的轨迹的离散区域。
    • 联合聚类引入了一组配置,这些配置对主体之间的交互行为进行编码。
  2. 在线学习阶段
    • 学习主体(L)采用固定点(FP)模型作为先验信念,以模仿预期的转换。在在线阶段,通过平衡探索 - 利用权衡,L 的行动被用于解决新动态环境导致的行动选择的不确定方面,从而调整 L 的假设。
    • 实验在模拟环境中进行,通过 500 个不同起始位置的情节来训练学习主体 L。每个情节包含 10 次迭代,即 L 通过 500 个不同的起始位置尝试 5000 次迭代来学习策略。
  3. 性能评估
    • 经过试验阶段,L 获得了关于意外情况的知识,生成模型中的似然映射与参考生成过程和目标目标(例如,超越动态对象)充分对齐。
    • 图 3-(a) 表明 L 的运动是连贯进行的,这导致在每个试验时期(例如,每个情节)的探索较少。此外,图 3-(a) 比较了使用不同学习方法在训练期间执行的动作数量,显示使用所提出的方法时,L 完成任务所需的动作比其他方法少。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值