- 博客(11)
- 资源 (2)
- 收藏
- 关注
原创 模仿学习(Imitation Learning)概述
什么是模仿学习呢?简单来说,模仿学习(Imitation Learning),就是要训练机器能够复制人类的连续动作,进而达到模仿的目的。其实,Imitation Learning的实用性很高,假设今天有一个训练场景,你不知道该怎么定奖励值(reward),但是你可以收集到专家的示范数据(expert demonstration data),你就可以考虑用Imitation Learning这个方法。因此,模仿学习也被寄予很高的期待,成为下一代强人工智能的关键技术。......
2022-07-07 19:50:07
23493
原创 李宏毅深度强化学习(国语)课程(2018) 笔记(八)Imitation Learning
李宏毅深度强化学习(国语)课程(2018) 笔记(八)Imitation Learning
2022-07-06 10:14:31
274
原创 李宏毅深度强化学习(国语)课程(2018) 笔记(七)Sparce Reward
李宏毅深度强化学习(国语)课程(2018) 笔记(七)Sparce Reward
2022-07-05 10:51:10
209
原创 李宏毅深度强化学习(国语)课程(2018) 笔记(六)Actor-Critic
李宏毅深度强化学习(国语)课程(2018) 笔记(六)Actor-Critic
2022-07-03 11:25:19
318
原创 李宏毅深度强化学习(国语)课程(2018) 笔记(五)Q-learning (Continuous Action)
李宏毅深度强化学习(国语)课程(2018) 笔记(五)Q-learning (Continuous Action)
2022-07-02 09:49:23
248
原创 李宏毅深度强化学习(国语)课程(2018) 笔记(四)Q-learning (Advanced Tips)
李宏毅深度强化学习(国语)课程(2018) 笔记(四)Q-learning (Advanced Tips)
2022-06-30 11:19:21
286
原创 李宏毅深度强化学习(国语)课程(2018) 笔记(三)Q-learning (Basic Idea)
李宏毅深度强化学习(国语)课程(2018) 笔记(三)Q-learning (Basic Idea)
2022-06-28 12:21:38
314
原创 李宏毅深度强化学习(国语)课程(2018) 笔记(二)Proximal Policy Optimization(PPO)
李宏毅深度强化学习(国语)课程(2018) 笔记(二)Proximal Policy Optimization(PPO)
2022-06-27 20:48:21
634
原创 李宏毅深度强化学习(国语)课程(2018) 笔记(一)Policy Gradient (Review)
李宏毅深度强化学习(国语)课程(2018) 笔记
2022-06-26 23:21:48
873
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人