强化学习:从人类学习到机器智能
1. 人类学习的奥秘
人类如何学习这一问题困扰了思想家们数千年。希腊哲学家柏拉图和他的学生亚里士多德曾思考:真理和知识是内在的(理性主义)还是源于经验(经验主义)?即便在2500年后的今天,人类仍在探寻这个永恒的问题。
如果人类无所不知,就无需再经历生活。人们可以将时间用于改善生活、思考诸如“钥匙在哪”“是否锁门”等问题。但知识最初是如何获得的呢?虽然教育能传授知识,且更高的教育水平有助于社会发展,但并非所有知识都能通过教导获得。无论是在课堂还是生活中,学生都需要亲身经历。
幼儿的学习过程便是很好的例证。他们需要体验各种情境和结果,逐渐寻求有益的体验,避免不利的体验。他们积极做决策并评估结果,但孩子的生活充满困惑,奖励也常常具有误导性。例如,爬进橱柜吃饼干能带来即时的满足,但可能会受到更大的惩罚。
强化学习融合了两项任务:一是探索新情境,二是利用经验做出更好的决策。随着时间推移,这会形成完成任务的计划。比如,孩子学会走路,是在经历多次扶着、摇晃和摔倒后,通过向前倾斜并投入父母怀中实现的。最终,婴儿的腿部肌肉会协同工作,采用多步策略来决定何时移动。由于无法教会孩子所有的计划,生活便提供了一个学习框架。
2. 为何现在需要强化学习
如今需要并能够实现强化学习,主要有两个原因:大量数据的获取和更快的数据处理速度。
直到2000年,人类知识存储在书籍、报纸和磁带等模拟设备上。1993年,压缩这些知识需要15.8艾字节(1艾字节 = 10亿吉字节)的空间,而到2018年,这一数字增长到了33泽字节(1泽字节 = 1000亿吉字节)。云服务提供商甚至需要使用集装箱大小的硬盘来上
超级会员免费看
订阅专栏 解锁全文
2823

被折叠的 条评论
为什么被折叠?



