2、强化学习:从人类学习到机器智能

强化学习:从人类学习到机器智能

1. 人类学习的奥秘

人类如何学习这一问题困扰了思想家们数千年。希腊哲学家柏拉图和他的学生亚里士多德曾思考:真理和知识是内在的(理性主义)还是源于经验(经验主义)?即便在2500年后的今天,人类仍在探寻这个永恒的问题。

如果人类无所不知,就无需再经历生活。人们可以将时间用于改善生活、思考诸如“钥匙在哪”“是否锁门”等问题。但知识最初是如何获得的呢?虽然教育能传授知识,且更高的教育水平有助于社会发展,但并非所有知识都能通过教导获得。无论是在课堂还是生活中,学生都需要亲身经历。

幼儿的学习过程便是很好的例证。他们需要体验各种情境和结果,逐渐寻求有益的体验,避免不利的体验。他们积极做决策并评估结果,但孩子的生活充满困惑,奖励也常常具有误导性。例如,爬进橱柜吃饼干能带来即时的满足,但可能会受到更大的惩罚。

强化学习融合了两项任务:一是探索新情境,二是利用经验做出更好的决策。随着时间推移,这会形成完成任务的计划。比如,孩子学会走路,是在经历多次扶着、摇晃和摔倒后,通过向前倾斜并投入父母怀中实现的。最终,婴儿的腿部肌肉会协同工作,采用多步策略来决定何时移动。由于无法教会孩子所有的计划,生活便提供了一个学习框架。

2. 为何现在需要强化学习

如今需要并能够实现强化学习,主要有两个原因:大量数据的获取和更快的数据处理速度。

直到2000年,人类知识存储在书籍、报纸和磁带等模拟设备上。1993年,压缩这些知识需要15.8艾字节(1艾字节 = 10亿吉字节)的空间,而到2018年,这一数字增长到了33泽字节(1泽字节 = 1000亿吉字节)。云服务提供商甚至需要使用集装箱大小的硬盘来上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值