18、大型状态空间中的高效概念形成

nice1

于 2025-10-07 16:57:41 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏： AGI前沿：从理论到实践文章标签：大型状态空间概念形成动画智能体

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/nice1/article/details/153910750

AGI前沿：从理论到实践专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

大型状态空间中的高效概念形成

1. 引言

通用自主智能体需要在具有大状态空间的未知环境中运行。为了在这样的环境中成功运作，智能体必须基于比环境状态空间小几个数量级的概念集来维护自身的环境模型。对于自适应智能体而言，这些概念集不能是固定的，而需要不断适应新情况。这就要求有机制来形成和保留对成功决策至关重要的概念，同时去除其他概念。本文将比较四种通用的学习和决策算法，包括标准 Q 学习、深度 Q 学习、单智能体局部 Q 学习以及具有改进概念形成规则的单智能体局部 Q 学习。

2. 相关背景

2.1 神经可塑性与神经网络

神经可塑性指动物的神经系统根据环境变化进行改变的能力，神经元之间的连接会随时间变化，神经元也会在生命过程中不断增减。人工神经网络模型常基于静态架构，不过也有一些模型允许添加和删除节点，如级联相关架构每次添加一个隐藏神经元，渐进式神经网络在保留先前知识的同时增加新列。此外，还有正则化技术和剪枝方法可减小神经网络规模并提高泛化能力。

2.2 强化学习

强化学习在动物界广泛存在，其生物学基础也得到了深入研究。强化学习算法是通用环境下学习和决策的强大工具。Q 学习是从经验中学习马尔可夫决策过程最优策略的基本算法，U 树模型用于构建状态表示的决策树，局部 Q 学习用于多智能体环境中将多个智能体收集的 Q 值合并为全局 Q 值。强化学习算法也被应用于内稳态智能体，其目标是调节内稳态变量以尽可能长时间存活。

2.3 人工动物

人工动物主要在人工生命领域进行研究。Stewart Wilson 将动画智能体（animats）定义为一种人工动物，其唯一目标是内稳态，并提出通

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。