强化学习入门:原理、算法与应用
1. 引言
人工智能正飞速发展,其边界不断拓展。自2015年起,计算机就能以媲美资深玩家的水平玩80年代的电子游戏;2016年,计算机首次击败围棋世界冠军,展现出超乎人类的棋艺。此外,全自动驾驶汽车已问世数年,再过几年,亚马逊的无人机可能就会穿梭于大街小巷送货。
这些系统的强大之处在于其能够从数据中学习。它们遵循的规则和展现的行为并非完全由聪明的工程师编写,而是通过工程师实现的学习算法,利用相关数据进行训练。学习算法从数据中发现模式,找出在不同情况下的“最佳”决策,从而形成智能系统,这就是机器学习。
2. 强化学习概述
上述部分例子采用了一种特定的机器学习方法——强化学习。这种学习方法受行为主义心理学启发,从奖励和惩罚的角度研究人类和动物的行为。下面通过一个简单的例子来说明其原理:
假如你想训练你的狗学会坐下。你把狗带到户外,大声喊“坐下”。狗意识到需要做点什么,但不知道具体该做什么。它先是叫了几声,没得到任何反应;然后伸出爪子,还是没有反应;最后它坐在地上,这时一块狗饼干出现了!如果你多次重复这个过程,狗可能会将“你喊坐下”的情境和“自己坐下”的动作与“美味的饼干”这一积极刺激联系起来,以后遇到类似情况就会重复这个行为。
本质上,学习者渴望某种东西,其获得量取决于自身行为。当表现出期望的行为时,会获得更多;反之则获得更少甚至受到惩罚。无论是狗的饼干、人类大脑中的多巴胺,还是简单的数值,其增加都表明学习者做对了事情,智能学习者会在未来遇到类似情况时重复该行为。同样的原理也成功应用于训练人工智能玩电子游戏和围棋,前者以游戏得分作为奖励,后者以输赢作为奖惩。
超级会员免费看
订阅专栏 解锁全文
1175

被折叠的 条评论
为什么被折叠?



