《A Practical Guide to Multi-Objective Reinforcement Learning and Planning》文章翻译

最新推荐文章于 2025-04-02 19:30:00 发布

Pang冉

最新推荐文章于 2025-04-02 19:30:00 发布

阅读量1.4k

点赞数 3

文章标签：人工智能深度学习

本文链接：https://blog.youkuaiyun.com/qq_36979202/article/details/121335103

版权

原文：Hayes, Conor F., et al. “A practical guide to multi-objective reinforcement learning and planning.” arXiv preprint arXiv:2103.09568 (2021).

待解决：utility如何翻译合适，文中目前是效用。belief，concept如何翻译。

摘要

现实世界的决策任务通常很复杂，经常需要在多个相互冲突的目标之间进行权衡。尽管如此，大多数关于强化学习和决策理论规划方面研究要么只假设一个目标，要么假设多个目标可以通过简单的线性组合来处理。此类方法可能会过度简化潜在问题，从而产生次优结果。本文作为多目标方法在疑难问题上的应用指南，面向已经熟悉单目标强化学习和规划方法并希望采用多目标方法进行研究的研究人员，如以及在实践中遇到多目标决策问题的研究者。它确定了可能影响目标策略性能的因素，并举例说明这些因素如何影响复杂问题的多目标决策系统的设计。

1 引言

在大多数现实世界的决策问题中，我们关心的不仅仅是一个目标。例如，如果我们有一个带有水力发电厂的水库，我们可能会关心最大限度地提高能源产量，同时最大限度地减少灌溉赤字以及最大限度地减少洪水风险。在医学治疗中，我们可能希望最大限度地提高治疗效果，同时最大限度地减少各种副作用。换句话说，大多数现实世界的决策问题本质上都是多目标的。

虽然大多数决策问题实际上有多个目标，但大多数处理需要与决策问题交互的代理的算法都专注于优化单个目标。尽管如此，为了处理现实世界的多个目标，一种常见方法是将所有重要的目标组合在一起，形成一个单一的、标量的、可加的奖励函数，这通常涉及为环境中可能发生的事件分配标量奖励或惩罚的迭代过程。例如，在水库设置中，我们可能会对发生的洪水施加较大的惩罚，对每个时间步的功率输出给予正奖励，并对未满足灌溉需求的每个时间步进行负奖励。然后，使用单目标学习方法，观察结果策略，如果行为不令人满意，则重新设计奖励函数。然后重复此迭代过程，直到研究者可以接受该策略。我们认为这中方法有几个问题：（a）它是一个半盲的手动过程，（b）它不利于决策者做出明智的权衡，为工程师理解决策问题增加了负担，（c）它损害了决策过程的可解释性，以及 (d) 它无法处理用户和决策者可能实际拥有的所有目标的偏好。最后，（e）目标之间的偏好可能会随着时间的推移而改变，当这种情况发生时，单目标代理将不得不重新训练或更新。

（a），如果我们通过迭代过程设计一个标量奖励函数直到我们达到可接受的策略，我们会尝试多个奖励函数，每个奖励函数都是实际目标的标量化。然而，我们没有系统地检查所有可能的奖励函数。换句话说，我们可能会满足可接受策略的最低阈值，但我们只观察到所有奖励函数可能的标量化的一个子集。因此，尽管可以找到可接受的策略，但它可能与最优策略相去甚远——如果我们能够系统地检查所有可能的解决方案，我们就会得到这种最优策略。这会自动将我们带到第二点 (b)，由于奖励函数是需要预先设计的，我们只是猜测它的影响可能对策略有影响。例如，当尝试在电力生产系统中训练代理时，我们可能希望将平均电力输出加倍。然而，即使目标在奖励函数中是线性加权的，也不是仅仅将与绩效的功率输出方面相关的奖励加倍那么简单，因为奖励权重与实际目标结果之间的关系很可能是非线性。另一方面，如果我们能够检查所有可能的最优策略以及它们在目标之间提供不同权衡的价值，我们就可以以明智的方式决定结果，而不是对结果进行有根据的猜测。当工程师创建标量奖励函数时，他们同时对实际决策者的偏好（例如，水库中的政府）做出假设，并对标量奖励函数的变化导致的行为变化进行猜测。这不是人工智能工程师的任务——至少在非常重要的决策问题中不是。

（c），标量奖励函数的另一个问题是缺乏（后验）可解释性。如果我们问“为什么机器人会与花瓶相撞并摧毁它？”，我们可以尝试输入一个替代动作，例如从花瓶旁转向。例如，一个具有单一包罗万象目标的代理学习了一个标量价值函数，然后告诉我们其他策略的价值减少了 3.451，这几乎没有提供任何解释。（这段讲了啥不太理解）。如果相反，智能体可以告诉我们，如果损坏花瓶的目标概率下降到 0，但撞到宠物的目标概率会增加 0:5%（不同的目标），这将使我们深入了解出了什么问题。我们也可能出于不同的原因否定这种可能：我们可能认为智能体高估了与狗相撞的风险，这是该目标价值的错误估计。我们可能还会认为，相比较一定会撞到花瓶，撞到狗的可能性增加 0.5% 是可以接受的，因为机器人撞到狗可能会给狗带来不便，但是对它来说不是非常危险。这可能是由于我们对于不同结果的值函数的错误分配。换句话说，不采取明确的多目标方法不利于我们评估或理解我们的智能体可能需要的基本信息。

（d），并不是所有的人类偏好都可以通过标量加性奖励函数来处理。当用户的偏好应该用非线性而不是线性效用函数建模时，对于强化学习框架，先验线性化在数学上是不可能的，因为线性化会破坏奖励函数的可加性。对于某些领域，如果由此导致的最优性损失可能不会产生重大影响，这可能仍然是可以接受的。然而，在伦理或道德问题变得明显的重要领域，单目标方法需要以许多人可能无法接受的方式将这些因素与其他目标（如经济成果）明确结合起来。同样，对于我们希望确保多个参与者获得公平或公平结果的场景，由此设计单一目标奖励可能很困难。

（e），众所周知，人类会不时改变主意。因此，不同目标的权衡之间的偏好可能会随着时间的推移而发生变化。明确的多目标系统可以训练智能体能够处理此类偏好变化的情况，从而在发生偏好变化时尽快给出新策略。这增加了多目标决策智能体的通用性，因为智能体不需要停止运行来更新策略，他们可以简单地切换策略以匹配新的用户偏好。我们注意到，这种类型的变化不同于问题的非平稳动力学问题，后者可能出现在单目标和多目标问题中，这里的多目标马尔可夫决策过程本身是平稳的，但外部偏好发生了变化。

到目前为止，我们希望我们已经让读者相信，采用明确的多目标方法进行规划和学习对于在决策问题中应用 AI 可能至关重要。为了提供进一步的动机，并展示建模多目标问题时可能出现的一些困难，我们将在第 2 节中提供此类多目标决策问题的示例。然后我们继续将对多目标问题进行建模（第 3 节）和推荐一种方法来系统地处理多目标决策问题，在整个过程中将用户的效用放在首位（第 4 节）。在第 5 节中，我们概述了从识别多目标决策问题到在实践中应用策略的过程中，应考虑哪些因素。我们描述了这些因素对这个过程和解决方案概念的影响。然后，我们描述了多目标决策问题和其他已知决策问题之间的关系（第 6 节），并简要综述现有算法（第 7 节）和评估多目标的策略的指标（第 8 节）。为了帮助研究人员开始该领域的工作，我们在第 9 节中包含了一个多目标决策问题的解决示例，一个具有多个目标的水管理问题，此外，我们添加了此实例的 Jupyter notebook 作为补充材料。最后，我们总结文章并在第 10 节讨论开放研究挑战。