最近《Nature》上有一篇多尺度强化学习的新工作,讲的是大脑中的多时间尺度强化学习,具体细节可看下文解析。这方向是目前复杂系统智能化的核心技术,凭借分层决策与动态适应性在工业界有广泛的应用前景。
相信有些论文er已经发现了,这些优势也契合了当下的趋势(AI正不断向复杂场景渗透),可以预见,多尺度RL即将迎来爆发式增长机遇。近期的一些高区成果也表明,这方向已跻身顶会顶刊录用率攀升的热门赛道。
为帮助各位快速上车,我整理了9篇多尺度强化学习新成果,有代码的已经附上了。推荐各位论文er往动态尺度自适应角度进行挖掘,比如基于注意力机制的跨层交互建模、无监督尺度发现等。
全部论文+开源代码需要的同学看文末
Multi-timescale reinforcement learning in the brain
方法:论文通过模拟和实验,研究了大脑中多尺度强化学习的机制。模拟显示多尺度学习能解码奖励时间等信息;实验发现多巴胺神经元活动表现出多尺度特征,支持了多尺度强化学习的存在。
创新点:
-
提出多尺度强化学习模型,展示其在解码奖励时间等信息方面的优势。
-
发现多巴胺神经元活动呈现多尺度特征,为多尺度强化学习提供神经基础。
-
通过跨任务分析,揭示多巴胺神经元的折扣因子在不同任务中具有相关性,进一步支持多尺度强化学习的存在。
Efficient and scalable reinforcement learning for large-scale network control
方法:论文提出了一种去中心化的多尺度强化学习框架,通过局部模型学习和策略优化,高效地控制大规模网络系统。该方法利用局部观察和拓扑解耦,实现全局信息的准确估计和策略的持续改进,显著提升了系统的可扩展性和样本效率。
创新点:
-
提出基于模型的去中心化策略优化框架,利用局部模型学习和策略优化,高效控制大规模网络系统。
-
通过局部观察和拓扑解耦,准确估计全局信息,实现策略的持续改进,提升系统可扩展性。
-
在真实世界的大规模系统中验证了方法的有效性,特别是在涉及数百个代理的场景中表现出优越的性能。
Scale-aware deep reinforcement learning for high resolution remote sensing imagery classification
方法:论文提出了一种基于强化学习的高分辨率遥感影像分类方法(SAN),通过动态调整图像块的尺度来优化分类效果,结合全局缩略图和位置编码来增强尺度选择的准确性,从而在多尺度分析中提升分类性能。
创新点:
-
提出了一种基于深度强化学习的尺度感知分类网络(SAN),能够动态调整图像块的尺度,以适应不同尺度的土地利用/土地覆盖对象。
-
引入了尺度控制智能体和特征索引模块,增强了模型对图像块位置的感知能力和尺度选择的准确性。
-
采用双分支分类网络,结合局部图像块和多尺度上下文信息进行特征提取和融合,提高了分类精度。
mTrader: A Multi-Scale Signal Optimization Deep Reinforcement Learning Framework for Financial Trading
方法:论文提出mTrader框架,用于金融交易。它构建多尺度信号矩阵描述市场趋势,用VQ-VAE捕捉离散潜在变量,还基于PPO设离线动作优化器筛选次优交易动作,能从高频数据提取特征、优化交易策略。
创新点:
-
设计多尺度信号矩阵描述市场时间趋势,并用LASSO算法进行特征选择,优化特征表达。
-
首次将VQ-VAE应用于金融交易领域,捕捉高频金融数据的离散潜在变量,增强模型对市场状态的精确观察。
-
引入基于PPO的离线动作优化器,过滤次优交易动作,提升框架在市场波动中的收益最大化能力。
关注下方《学姐带你玩AI》🚀🚀🚀
回复“222”获取全部方案+开源代码
码字不易,欢迎大家点赞评论收藏