李宏毅深度强化学习(国语)课程(2018)
李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili
机器是可以与环境进行交互的,但是大部分情况下,机器却不能从这个过程中显示的获得奖励,奖励函数是难以确定。因此,模仿学习方法考虑让机器学习人类的做法,来使得机器可以去做人类才能完成的事。
模仿学习主要有两种方式:行为克隆(Behavior Cloning)和逆向强化学习(Inverse Reinforcement Learning)。
李宏毅深度强化学习(国语)课程(2018)
李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili
机器是可以与环境进行交互的,但是大部分情况下,机器却不能从这个过程中显示的获得奖励,奖励函数是难以确定。因此,模仿学习方法考虑让机器学习人类的做法,来使得机器可以去做人类才能完成的事。
模仿学习主要有两种方式:行为克隆(Behavior Cloning)和逆向强化学习(Inverse Reinforcement Learning)。