
强化学习
whitenightwu
这个作者很懒,什么都没留下…
展开
-
强化学习--综述1
强化学习 即增强学习(Reinforcement Learning),又称再励学习、评价学习。 在这种学习方式中,模型先被构建,然后输入数据刺激模型,输入数据往往来自于环境中,模型得到的结果称之为反馈,使用反馈对模型进行调整。强化学习、非监督学习、监督学习的关系 在传统的机器学习分类中没有提到过强化学习,而在连接主义学习中,把学习算法分为三种类型,即非监督学习(unsupervise...原创 2018-11-01 11:01:15 · 1897 阅读 · 0 评论 -
强化学习--综述2之强化学习的泡沫
深度强化学习的泡沫太大 DRL 的可复现性危机。由于发表的文献中往往不提供重要参数设置和工程解决方案的细节, 很多算法都难以复现。有人评论到,“DRL 的成功可能不是因为其真的有效,而是因为人们花了大力气。” 目前普遍的观点是,DRL 可能有 AI 领域最大的泡沫。DRL 的成功归因于它是机器学习界中唯一一种允许在测试集上训练的方法。...原创 2018-11-01 11:02:44 · 502 阅读 · 0 评论 -
强化学习--综述3之强化学习的分类
强化学习的分类 RL 算法可以分为基于模型的方法(Model-based)与免模型的方法(Model-free)。 1)前者主要发展自最优控制领域。通常先通过高斯过程(GP)或贝叶斯网络(BN)等工具针对具体问题建立模型,然后再通过机器学习的方法或最优控制的方法,如模型预测控制(MPC)、线性二次调节器(LQR)、线性二次高斯(LQG)、迭代学习控制(ICL)等进行求解。 2)而后者更...原创 2018-11-02 09:40:36 · 2464 阅读 · 3 评论 -
强化学习--概念之
agent(代理,智能体) 增强学习要解决的是这样的问题:一个能感知环境的自治agent,怎样通过学习选择能达到其目标的最优动作。这个很具有普遍性的问题应用于学习控制移动机器人,在工厂中学习最优操作工序以及学习棋类对弈等。当agent在其环境中做出每个动作时,施教者会提供奖励或惩罚信息,以表示结果状态的正确与否。例如,在训练agent进行棋类对弈时,施教者可在游戏胜利时给出正回报,而在游戏失败...原创 2018-11-02 09:43:14 · 302 阅读 · 0 评论 -
强化学习--与环境因素交互
与环境因素交互 无论是监督学习还是无监督学习,都不会着重于“数据实际上来自哪里,以及当机器学习模型生成结果时,究竟发生了什么”这点,一般地,我们在初期抓取大量数据,然后在不再与环境发生交互的情况下进行模式识别。这样的学习过程,都发生在算法和环境断开以后,这称作离线学习(offline learning)。 强化学习(reinforcement learning) 和对抗学习(adversa...原创 2018-11-02 09:48:28 · 2906 阅读 · 0 评论