【强化学习】
[ICRA 2025] Context-Based Meta Reinforcement Learning for Robust and Adaptable Peg-in-Hole Assembly Tasks
论文链接:https://arxiv.org/pdf/2409.16208
代码链接:
在未知环境中进行孔中插销组装是一项具有挑战性的任务,因为机载传感器误差会导致任务参数(如孔的位置和方向)的不确定性和变化。元强化学习(Meta RL)被提出用来解决这一问题,因为它学会了如何快速适应具有不同参数的新任务。然而,以前的方法要么依赖于一个样本效率低下的程序,要么需要人为示范才能在现实世界中完成任务。该工作修改了Meta RL智能体使用的数据,并使用了即使在未校准的相机下也能轻易测量到的简单特征。进一步将Meta RL智能体适配为使用来自力/扭矩传感器的数据,而不是相机,来进行组装,并且只需少量训练数据。最后,本文提出了一种微调方法,能够一致且安全地适应参数与训练任务相差10倍的分布外任务。研究结果表明,所提出的数据修改显著提高了训练和适应的效率,并使智能体能够在具有不同孔位置和方向的任务中达到100%的成功率。在实际机器人上的实验证实了无论是配备相机还是力/扭矩传感器的智能体都能在未知孔位置的任务中实现100%的成功,与其模拟性能相匹配,并验证了该方法的鲁棒性和适用性。与之前在现实世界任务中样本效率低下的适应工作相比,提出的方法样本效率高出10倍。
[TPAMI 2024] Context-Based Meta-Reinforcement Learning With Bayesian Nonparametric Models
论文链接:https://ieeexplore.ieee.org/abstract/document/10495171
代码链接:https://github.com/Ghiara/MELTS
深度强化学习代理通常需要收集大量交互才能解决单个任务。相反,元强化学习(meta-RL)旨在利用在一组类似任务上的训练知识,使用少量经验快速适应新任务。最先进的基于上下文的元强化学习算法使用上下文来编码任务信息,并训练一个条件化的策略,该策略依赖于推断出的潜在任务编码。然而,大多数最近的工作仅限于参数化任务,其中少数变量控制了任务分布的全部变化,并且由于少样本适应设置,未能在非平稳环境中工作。为了解决这些限制,作者提出了具有任务自我发现功能的元强化学习(MELTS),它自适应地学习定性不同的非参数化任务,并以零样本方式适应新任务。还引入了一个基于高斯混合模型的无限混合的新型深度聚类框架(DPMM-VAE),它将狄利克雷过程混合模型(DPMM)和变分自编码器(VAE)结合起来,以自适应的方式同时学习任务表示并对任务进行聚类。将DPMM-VAE集成到MELTS中,使其能够自适应地发现非参数化任务分布的多模态结构,这是使用各向同性高斯随机变量的先前方法无法建模的。此外,还提出了一种零样本适应机制和基于递归的上下文编码策略,以提高数据效率,并使所提算法适用于非平稳环境。在各种具有参数化和非参数化变化的连续控制任务上,所提算法产生了更结构化和自适应的任务潜在空间,并且在样本效率和渐近性能方面也优于最先进的元强化学习算法。
【图像超分】
[TPAMI 2024] Blind Super-Resolution via Meta-learning and Markov Chain Monte Carlo Simulation
论文链接:https://arxiv.org/pdf/2406.08896v1
代码链接:https://github.com/XYLGroup/MLMC
基于学习的方法在盲单图像超分辨率(SISR)任务中取得了巨大成功,然而通常需要手工设计的核先验和基于学习的核先验。这篇论文提出了一种基于元学习和马尔可夫链蒙特卡罗(MCMC)的SISR方法,从有组织的随机性中学习核先验。具体来说,采用一个轻量级的网络作为核生成器,并通过从随机高斯分布上的MCMC模拟进行优化。这一过程提供了对有理模糊核的近似,并将网络级别的Langevin动力学引入到SISR优化过程中,有助于防止核估计陷入不良局部最优解。同时,提出了一种基于元学习的交替优化程序来分别优化核生成器和图像恢复器。与传统的交替最小化策略相比,基于元学习的框架应用于学习一种自适应的优化策略,这种策略不那么贪婪且具有更好的收敛性能。这两个过程以即插即用的方式迭代处理,首次实现了一个基于学习的但在无监督推理中的即插即用的盲SISR解决方案。广泛的仿真实验表明,与现有最先进技术相比,所提方法在合成和真实世界数据集上表现出了优越的性能和泛化能力。