持续学习——Optimal Continual Learning has Perfect Memory and is NP-HARD——ICML2020

本文探讨了持续学习算法在解决NP-HARD问题时的挑战,强调此类算法需具备完美记忆能力。介绍了三种分类方法:正则化基、重放基及贝叶斯与变分贝叶斯,并提及每个任务独立参数的学习策略。理论验证依据《持续学习的三种场景》一文。总结了基于正则项的方法,以及P、NP和NP-hard问题的概念。

在这里插入图片描述
在这里插入图片描述

Abstract

The main finding is that such optimal continual algorithms generally solve an NP-HARD problem and will require a perfect memory to do so.

Introduction

分类方法分成regularization-based, replay-based和bayesian and variationally Bayesian三类;另外就是每个任务学一份参数;如何验证一个continual learning算法的性能用理论《Three scenarios for
continual learning, arxiv 2019.04》;
Optimal CL algorithms would have to solve an NP-HARD problem and perfectly memorize the past.

Conclusion

the first generic theoretical study of the CL problem

Key points:
没开源代码;Well-written,值得细读,理论部分可以学习;总结经验发现型文章,有一定的理论推导;
主要讨论的是基于正则项的方法;P问题:可以在多项式级时间复杂度内解决;
NP问题:可以在多项式级时间复杂度内被验证
NP-hard问题:指问题S,满足任何NP问题都可以在多项式级时间复杂度内被归约为S(归约:即被归约的NP问题与S的答案相同,当解决了S时,就同时解决了所有的NP问题)。可以理解为,这是一个比所有NP问题都难的问题;

在提供的引用中虽未直接提及强化学习在顺序决策和最优控制方面的具体应用内容,但可从相关信息进行一定的推导。 强化学习算法可与深度神经网络结合,以解决具有高维状态空间和动作空间的复杂强化学习问题,这在解决自动驾驶中的行为决策(策略制定)子任务方面有应用,行为决策本质上属于顺序决策的一种,在自动驾驶的过程中,需要不断根据当前状态做出一系列的决策,以达到安全、高效行驶的最优控制目标 [^1]。 在训练深度Q网络(DQN)时采用的深度Q学习算法,与表格Q学习方法类似,其核心是通过多层神经网络计算动作值,这也是在不断地进行顺序决策,以找到最优的动作序列,从而实现最优控制 [^2]。 在交通信号控制领域,每个交叉口通常由单个智能体控制,多个交通信号控制智能体网络可视为多智能体系统。强化学习在城市交通信号控制中是一种有前景的方法,智能体可以在线学习持续改进其性能,并适应交通需求的变化,这也是顺序决策和最优控制的体现,智能体需要根据不同时刻的交通流量等状态信息,顺序地做出信号灯切换的决策,以实现交通流畅性等最优控制目标 [^5]。 ```python # 以下为简单示意代码,模拟强化学习在顺序决策中的基本逻辑 import numpy as np # 定义状态空间和动作空间 state_space = 10 action_space = 5 # 初始化Q表 Q_table = np.zeros((state_space, action_space)) # 定义超参数 gamma = 0.9 # 折扣因子 alpha = 0.1 # 学习率 # 模拟一个顺序决策过程 current_state = 0 for _ in range(10): # 选择动作 action = np.argmax(Q_table[current_state]) # 执行动作,得到下一个状态和奖励 next_state = np.random.randint(0, state_space) reward = np.random.randint(0, 10) # 更新Q表 Q_table[current_state, action] = (1 - alpha) * Q_table[current_state, action] + alpha * ( reward + gamma * np.max(Q_table[next_state])) current_state = next_state ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值