计算机科学和生物学角度的Continual/Lifelong Learning的简要背景

背景

在本页中,您将从计算机科学和生物学角度中找到关于持续/终身学习的简要背景。

内容

1.简介
2.生物学前瞻
   2.1简单学习
   2.2联想学习
   2.3神经机制

什么是持续/终身学习?

持续学习(CL)建立在对外部世界不断学习和自适应学习的基础上,并使更复杂的技能和知识得以自主增量发展。

在机器学习的背景下,它意味着能够平滑地更新预测模型,以考虑不同的任务和数据分布,但仍能够在时间内重复使用和保留有用的知识和技能。

因此,CL是唯一迫使我们处理更高和更现实的时间尺度的范例,其中数据(和任务)仅在时间期间变得可用,我们无法访问先前的感知数据,并且必须在之前学习的基础上构建知识。

生物学前瞻

学习的主要进化优势是迅速改变有机体的行为,以在动态环境中取得成功。这些经验驱动的改变发生在比遗传进化可以适应的更短的时间尺度中,允许单个生物体在比其行为固定的更多情况下具有更多的情况。正因为如此,经验驱动的改变在整个动物界普遍存在,从复杂的脊椎动物到单细胞生物到一定程度。其原因很简单,学习的反应或从经验中获得的信息有助于机体成功的机会,而不是随机选择的行为。

虽然一些学习只发生一次,例如在雏鸭中印迹,但大多数在整个生物体的生命周期中不断发生。随着气候,生态位,食物供应或其他因素的改变,有机体也可能改变其反应。而且,这可能在整个有机体的生命中多次发生。例如,清除动物可以获知食物供应的位置,多次返回该位置。当消耗源耗尽时,动物必须学会不仅要避免返回该位置,还要学习新的来源。这个序列可能在整个动物生命中多次发生,这是食物稀缺的现实。

简单学习

自18世纪后期以来对动物学习的长期研究,已经揭示了大量的一般规则文献。这些普遍规律包括多个尺度和复杂程度,并且可能在本地化的物种中普遍存在,只有少数。例如,一种非常常见的学习形式是最基本形式的宣传和习惯。这些导致动物在重复暴露后对给定刺激的反应增加或减少。这些发生在整个动物王国,从人类到单细胞。例如,如果你在一个黑暗的房间里走路而且有人会吓到你,那么你的反应可能会比在光线充足的房间里被吓到的时候更加夸张。这是一个敏感化的例子,因为黑暗的房间夸大了你的反应。在草原犬中可以观察到这种情况的倒数。在听到接近人类脚步声的声音后,动物们会进入他们的洞穴。由于这种情况多次发生,草原犬狗学会了脚步不再是威胁,因此一旦再次听到就不再再退缩了。这些现象也可以在单细胞水平上观察到。分化的PC12细胞分泌递减量的去甲肾上腺素,因为它们被钾离子浓度重复刺激。这些简单的学习规则在整个生物体的生命周期中持续存在,因为它经历了不同类型和程度的刺激。单独地,这些简单的规则可以产生惊人程度的复杂行为,但是当与其他机制结合时它们甚至更令人印象深刻。草原土拨鼠学会了脚步不再是威胁,因此一旦再次听到就不再退缩了。这些现象也可以在单细胞水平上观察到。分化的PC12细胞分泌递减量的去甲肾上腺素,因为它们被钾离子浓度重复刺激。这些简单的学习规则在整个生物体的生命周期中持续存在,因为它经历了不同类型和程度的刺激。单独地,这些简单的规则可以产生惊人程度的复杂行为,但是当与其他机制结合时它们甚至更令人印象深刻。草原土拨鼠学会了脚步不再是威胁,因此一旦再次听到就不再退缩了。这些现象也可以在单细胞水平上观察到。分化的PC12细胞分泌递减量的去甲肾上腺素,因为它们被钾离子浓度重复刺激。这些简单的学习规则在整个生物体的生命周期中持续存在,因为它经历了不同类型和程度的刺激。单独地,这些简单的规则可以产生惊人程度的复杂行为,但是当与其他机制结合时它们甚至更令人印象深刻。分化的PC12细胞分泌递减量的去甲肾上腺素,因为它们被钾离子浓度重复刺激。这些简单的学习规则在整个生物体的生命周期中持续存在,因为它经历了不同类型和程度的刺激。单独地,这些简单的规则可以产生惊人程度的复杂行为,但是当与其他机制结合时它们甚至更令人印象深刻。分化的PC12细胞分泌递减量的去甲肾上腺素,因为它们被钾离子浓度重复刺激。这些简单的学习规则在整个生物体的生命周期中持续存在,因为它经历了不同类型和程度的刺激。单独地,这些简单的规则可以产生惊人程度的复杂行为,但是当与其他机制结合时它们甚至更令人印象深刻。

联想学习

单独响应的简单调节可能不适合更复杂的生物和环境。可能需要更精细的敏锐度。因此,进化产生了其他学习机制,旨在解析环境的因果结构,以及区分个体特征和刺激。这种类型的学习被认为是联想的,因为动物将结构化信息联系在一起,并且适合两个主要类别:经典和工具条件。Ivan Pavlov和他的狗使得经典调理成为名人,并且包括动物将新刺激与反应联系起来的能力,如在响铃的经典例子中,条件刺激,导致狗垂涎欲滴。其他用途也已展出。农民正在杀死捕食他们牛的狮子。为了阻止猫进入牛群,保护专家给了狮子牛肉,这会使他们安全生病。这使狮子远离肉类,并且杀死的牛数量急剧减少。这种调节很容易在野外被注意到,并且随着越来越多的协会的建立,将在整个有机体的一生中持续进行。

当从长期规模的角度观察经典条件时,动物的条件反射之间产生复杂的相互作用。虽然许多管理这些复杂相互作用的规则是未知的,但有些规则已被发现。例如,一些经历但与响应无关的刺激在与响应相关联时会显示较慢的学习曲线,称为潜在抑制。先前学习刺激和反应对也可以抑制未来的刺激被学习,称为阻塞。生物也可能表现出对新刺激的反应,称为条件泛化。

生物体可能没有以这样的方式构建这些事件,其中奖励立即显而易见,而是必须使用反复试验直到找到奖励。例如,章鱼可以尝试几种不同的动作来打开一个被困在里面的螃蟹的罐子,最后通过用它的手臂扭转来成功。当给出一个新的罐子时,章鱼会以较少的尝试打开它,暗示学习机制。这种类型的学习被称为器乐调节。生物经常在他们的环境中使用这种类型的学习,试图解析无法知道的隐藏奖励。机器学习中的许多成功也利用了它。沃特金斯着名的Q学习算法就是考虑到这种类型的学习而设计的,然后与深度神经网络配对产生了一般的Atari播放算法。

关联对需要反复强化才能持续存在。如果有机体得知某个区域可能不安全,但之后反复认为它是安全的,那么先前的配对将会消失。然而,如果刺激再次出现,那么有机体将比第一次配对学得更快,暗示配对永远不会完全褪色。

神经机制

敬请关注!

 

 

翻译自:https://www.continualai.org/background/#neural_mechanisms

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值