一:增强学习(Q-learning)要解决的问题:一个能感知环境的自治agent,怎样通过学习选择能达到其目标的最优操作。agent的任务就是从这个非直接的,有延迟的回报中学习,以便后续的动作产生最大的积累效应,agent通过学习改进自身的性能并选择行为。
强化学习:从环境状态到行为映射的学习,以使系统行为从环境中获得的积累奖赏值最大,该方法不同与监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错的方法来发现最优行为策略。增强学习的目标是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价为最佳。
增强学习的目的就是求解马尔科夫决策过程(MDP)的最优策略,基本解法有:动态规划法,蒙特卡罗方法,时间差分法,Q学习。
增强学习在很多领域获得应用:自动直升机,机器人控制,手机网络路由,市场决策,工业控制,高效网页索引等。
深度强化学习(DQN)是深度学习与强化学习的结合,就是用深度学习网络自动学习动态场景的特征,然后通过强化学习学习对对场景特征的决策动作序列。
二:增量学习
1:为什么需要增量学习算法?
数据库中的数据时动态变化的;数据量(训练样本)的变化引起重复学习;应避免在海量数据的情况下重复学习;只需修改 因数据变化而涉及的规则;增量学习是数据挖掘算法走向实用化的关键技术问题之一;
2:增量学习的重要性体现在2个方面:
①:实际的数据库中,数据量往往是逐步增加的,因此,面临新的数据时,学习方法应能对训练好的系统进行某些改动,以对新数据中蕴含的知识进行学习。
②:对一个训练好的系统进行修改的时间代价通常低于重新训练一个系统所需的代价。
增量式算法:就是每当新增数据时,并不需要重建所有的知识库,而是在原有的知识库的基础上,仅仅做由于新增数据所引起的更新,这更符合人的思维原理。
对于传统的批量学习技术来说,如何从日益增加的新数据中学得有用的信息是一个难题,随着数据规模的不断增加,对时间和空间的需求也会迅速增加