基于结构信息原则的分层决策框架解析

分层决策:基于结构信息原则的创新框架

摘要

分层强化学习(HRL)是一种有前景的方法,用于管理多个抽象层次上的任务复杂性并加速长视野智能体探索。然而,分层策略的有效性严重依赖于关于技能定义和任务分解的先验知识和手动假设。

本文提出了一种基于结构信息原则的新型框架SIDM,用于在单智能体和多智能体场景中进行分层决策。我们工作的核心是利用嵌入在决策过程中的结构信息,通过环境抽象自适应和动态地发现和学习分层策略。

具体而言,我们提出了一种抽象机制,处理历史状态-动作轨迹以构建状态和动作的抽象表示。我们定义并优化了有向结构熵——一种量化抽象状态间转移动态不确定性的度量——以发现捕捉强化学习环境中关键转移模式的技能。

基于这些发现,我们为单智能体场景开发了基于技能的学习方法,为多智能体场景开发了基于角色的协作方法,这两种方法都可以灵活集成各种底层算法以提升性能。在具有挑战性的基准测试上的广泛评估表明,我们的框架显著且一致地优于最先进的基线方法,根据平均奖励、收敛时间步和标准差衡量,策略学习的有效性、效率和稳定性分别提高了高达32.70%、64.86%和88.26%。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值