一、强化学习简介与应用:
1.强化学习定义:
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。
2.强化学习起源:
Artificial Intelligence
Control Theory
Operation Research
Cognitive Science & Psychology
有监督学习:Labeled数据,直接反馈,预测未知label数据
无监督学习:Unlabeled数据,无反馈,寻找数据隐藏结构
强化学习特点:1)无监督数据,只有奖励信号 2)奖励信号不一定实时,大部分情况奖励信号滞后 3)研究的非i.i.d数据,时间序列 4)当前的行为影响后续数据分布
举例:Alpha Go、Atari游戏 、机器人控制、自动驾驶直升机 (http://heli.stanford.edu/)、自动驾驶、自动交易 、etc..
二、强化学习数学模型
如何建立强化学习数学模型:
Model of uncertainty
Environment, actions, Agent knowledge
Focus on decision making
Maximize long-term reward
Reward奖励 Rt 标量函数 奖励假设:所有问题解决的目标都可以被描述成最大化累积奖励
History历史 Ht 历史是观测、行为、奖励的序列:Ht = O1, R1, a1,..., Ot-1, Rt-1, at-1, Ot, Rt, at
State状态 St 状态是所有决定将来的已有的信息,是关于历史的函数 St =f (Ht)
Action动作 at
Sequential Decision Making序列决策:1)目标:选择一定的行为系列以最大化未来的总体奖励 2)这些行为可能是一个长期的序列 3)奖励可能而且通常是延迟的 4)有时候宁愿牺牲即时(短期)的奖励以获取更多的长期奖励