29、强化学习:从人类学习到机器智能

强化学习:从人类学习到机器智能

1. 人类学习的千古谜题

人类如何学习?这看似简单的问题,却困扰了思想家们数千年。希腊哲学家柏拉图和他的学生亚里士多德曾自问:真理和知识是存在于我们内心(理性主义),还是通过经验获得(经验主义)?即便在2500年后的今天,人类仍在努力解答这个永恒的问题。

如果人类已经知晓一切,那么就无需再体验更多的生活。人们可以把余生花在通过做出明智决策来改善生活,以及思考诸如“我的钥匙在哪里?”和“我锁前门了吗?”这类问题上。但人类最初是如何获得这些知识的呢?知识可以传授,而且更高的平均教育水平会造就更美好的社会。然而,并非所有知识都能通过传授获得。无论是在课堂上还是在生活中,学生都必须亲身去体验。

1.1 儿童学习的启示

年幼的孩子为我们展示了这一学习过程。他们需要体验各种不同的情境和结果。从长远来看,他们会开始寻求有回报的体验,避免有害的体验(我们希望如此)。他们积极地做出决策,并评估结果。但孩子的生活充满了困惑,奖励往往也具有误导性。比如,爬进橱柜吃一块饼干能带来即时的巨大奖励,但随之而来的惩罚可能更大。

1.2 强化学习的两大任务

强化学习结合了两项任务。首先是探索新的情境,其次是利用这些经验做出更好的决策。随着时间的推移,这会形成一个完成任务的计划。例如,孩子在学会站立后,通过向前倾斜并倒在慈爱的父母怀中学会走路。但这是在经过数小时的牵手、摇晃和摔倒之后才实现的。最终,婴儿的腿部肌肉会协同运作,采用一种多步骤的策略,知道何时该移动哪个部位。我们无法教会孩子所需的每一个计划,因此生活提供了一个框架,让他们有途径去学习。

2. 机器的强化学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值