机器人学习与供应链管理:强化学习的应用探索
一、机器人学习中的课程学习
1.1 ALP - GMM方法原理
ALP - GMM方法聚焦于参数空间中性能变化最大(绝对学习进度)的位置,并在该差距周围生成参数。这样做的好处是,学习预算不会浪费在已经学习过的状态空间部分,或者当前智能体难以学习的部分。
1.2 实现步骤
1.2.1 创建自定义环境
首先,我们创建一个自定义环境 ALPKukaEnv ,其中关键部分如下:
class ALPKukaEnv(CustomKukaEnv):
def __init__(self, env_config={}):
...
self.mins = [...]
self.maxs = [...]
self.alp = ALPGMM(mins=self.mins,
maxs=self.maxs,
params={"fit_rate": 20})
self.task = None
self.last_episode_reward = None
self.episode_reward = 0
super(ALPKukaEnv, self).__init__(env_config)
这里, task
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



