基于结构信息原则的分层决策框架解析

最新推荐文章于 2025-12-19 10:49:24 发布

原创最新推荐文章于 2025-12-19 10:49:24 发布 · 181 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#1024程序员节 #强化学习 #分层决策 #结构熵 #程序那些事 #AIGC #碳移除

分层决策：基于结构信息原则的创新框架

摘要

分层强化学习（HRL）是一种有前景的方法，用于管理多个抽象层次上的任务复杂性并加速长视野智能体探索。然而，分层策略的有效性严重依赖于关于技能定义和任务分解的先验知识和手动假设。

本文提出了一种基于结构信息原则的新型框架SIDM，用于在单智能体和多智能体场景中进行分层决策。我们工作的核心是利用嵌入在决策过程中的结构信息，通过环境抽象自适应和动态地发现和学习分层策略。

具体而言，我们提出了一种抽象机制，处理历史状态-动作轨迹以构建状态和动作的抽象表示。我们定义并优化了有向结构熵——一种量化抽象状态间转移动态不确定性的度量——以发现捕捉强化学习环境中关键转移模式的技能。

基于这些发现，我们为单智能体场景开发了基于技能的学习方法，为多智能体场景开发了基于角色的协作方法，这两种方法都可以灵活集成各种底层算法以提升性能。在具有挑战性的基准测试上的广泛评估表明，我们的框架显著且一致地优于最先进的基线方法，根据平均奖励、收敛时间步和标准差衡量，策略学习的有效性、效率和稳定性分别提高了高达32.70%、64.86%和88.26%。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。