文章目录
强化学习
- 论文发表在国际顶级期刊《Science》上,2016.3,透过自我对弈数以万计盘进行练习强化,AlphaGo在一场五番棋比赛中4:1击败顶尖职业棋手李世石。2016.12,Master(AlphaGo版本)开始出现于弈城围棋网和腾讯野狐围棋网,取得60连胜的成绩,以其空前的实力轰动了围棋界。DeepMind 如约公布了他们最新版AlphaGo论文(Nature),介绍了迄今最强最新的版本AlphaGo Zero,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。AlphaGo已经退休,但技术永存。
- 人工智能终极目标:
- AI = DL(Deep Learning) + RL(Reinforcement Learning) == DRL(Deep Reinforcement Learning)
- 开山之作
- Deep Mind 使用 DQN 让机器人玩 Atari 游戏并达到(超越)人类顶级选手水平:
- 强化学习就是“闭环学习”范式的典型代表
⽤⼀句话来概括强化学习和监督学习的异同点:强化学习和 监督学习的共同点是两者都需要⼤量的数据进⾏训练,但是两者所需要