18、大型状态空间中的高效概念形成

大型状态空间中的高效概念形成

1. 引言

通用自主智能体需要在具有大状态空间的未知环境中运行。为了在这样的环境中成功运作,智能体必须基于比环境状态空间小几个数量级的概念集来维护自身的环境模型。对于自适应智能体而言,这些概念集不能是固定的,而需要不断适应新情况。这就要求有机制来形成和保留对成功决策至关重要的概念,同时去除其他概念。本文将比较四种通用的学习和决策算法,包括标准 Q 学习、深度 Q 学习、单智能体局部 Q 学习以及具有改进概念形成规则的单智能体局部 Q 学习。

2. 相关背景

2.1 神经可塑性与神经网络

神经可塑性指动物的神经系统根据环境变化进行改变的能力,神经元之间的连接会随时间变化,神经元也会在生命过程中不断增减。人工神经网络模型常基于静态架构,不过也有一些模型允许添加和删除节点,如级联相关架构每次添加一个隐藏神经元,渐进式神经网络在保留先前知识的同时增加新列。此外,还有正则化技术和剪枝方法可减小神经网络规模并提高泛化能力。

2.2 强化学习

强化学习在动物界广泛存在,其生物学基础也得到了深入研究。强化学习算法是通用环境下学习和决策的强大工具。Q 学习是从经验中学习马尔可夫决策过程最优策略的基本算法,U 树模型用于构建状态表示的决策树,局部 Q 学习用于多智能体环境中将多个智能体收集的 Q 值合并为全局 Q 值。强化学习算法也被应用于内稳态智能体,其目标是调节内稳态变量以尽可能长时间存活。

2.3 人工动物

人工动物主要在人工生命领域进行研究。Stewart Wilson 将动画智能体(animats)定义为一种人工动物,其唯一目标是内稳态,并提出通

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值