大型状态空间中的高效概念形成
1. 引言
通用自主智能体需要在具有大状态空间的未知环境中运行。为了在这样的环境中成功运作,智能体必须基于比环境状态空间小几个数量级的概念集来维护自身的环境模型。对于自适应智能体而言,这些概念集不能是固定的,而需要不断适应新情况。这就要求有机制来形成和保留对成功决策至关重要的概念,同时去除其他概念。本文将比较四种通用的学习和决策算法,包括标准 Q 学习、深度 Q 学习、单智能体局部 Q 学习以及具有改进概念形成规则的单智能体局部 Q 学习。
2. 相关背景
2.1 神经可塑性与神经网络
神经可塑性指动物的神经系统根据环境变化进行改变的能力,神经元之间的连接会随时间变化,神经元也会在生命过程中不断增减。人工神经网络模型常基于静态架构,不过也有一些模型允许添加和删除节点,如级联相关架构每次添加一个隐藏神经元,渐进式神经网络在保留先前知识的同时增加新列。此外,还有正则化技术和剪枝方法可减小神经网络规模并提高泛化能力。
2.2 强化学习
强化学习在动物界广泛存在,其生物学基础也得到了深入研究。强化学习算法是通用环境下学习和决策的强大工具。Q 学习是从经验中学习马尔可夫决策过程最优策略的基本算法,U 树模型用于构建状态表示的决策树,局部 Q 学习用于多智能体环境中将多个智能体收集的 Q 值合并为全局 Q 值。强化学习算法也被应用于内稳态智能体,其目标是调节内稳态变量以尽可能长时间存活。
2.3 人工动物
人工动物主要在人工生命领域进行研究。Stewart Wilson 将动画智能体(animats)定义为一种人工动物,其唯一目标是内稳态,并提出通
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



