基于不可微分优化的面向决策学习：学习局部优化的决策损失-优快云博客

本文链接：https://blog.youkuaiyun.com/zuiyishihefang/article/details/145250547

文章信息

文章题为“Decision-Focused Learning without Differentiable Optimization: Learning Locally Optimized Decision Losses”，该文于2023年发表在NeurIPS 2022。该文章提出了一种完全用自动学习的损失函数取代决策聚焦学习中优化组件的方法。

摘要

决策聚焦学习（Decision-Focused Learning, DFL）是一种针对下游优化任务定制预测模型的范式，该任务利用模型的预测结果以在该特定任务上表现更好。DFL 的主要技术挑战在于需要能够对优化问题进行微分，这由于解的不连续性及其他挑战而变得困难。过去的研究主要通过手工设计针对特定任务的替代函数来绕过这一问题，这些替代函数在微分时能够提供有意义的梯度。然而，为每个新任务手工设计替代函数限制了 DFL 的可用性。此外，这些替代函数通常无法保证凸性，因此使用它们训练预测模型可能会导致较差的局部最优解。在本文中，作者完全摒弃了替代函数，转而学习能够捕捉任务特定信息的损失函数。

引言

预测后优化（Predict-then-optimize）是一种利用机器学习进行决策的框架。顾名思义，它分为两个阶段：首先，预测模型接收输入特征并利用它们进行预测；然后，这些预测被用来参数化一个优化问题，从而输出决策。许多现实世界的应用都涉及预测和优化两个部分，并且可以被视为预测后优化问题——例如，推荐系统中需要预测缺失的用户-物品评分，投资组合优化中需要预测未来表现，或战略决策中需要预测对手行为。

除了广泛适用性外，这一框架还形式化了预测与决策之间的关系。这一点非常重要，因为在基于机器学习的决策系统中，此类预测模型通常独立于下游优化任务进行学习。最近在预测后优化设置中的研究表明，通过将预测模型与下游任务相匹配，可以实现更好的任务特定性能。这通常通过端到端地对整个预测和优化流程进行微分来实现，从而形成了一类作者称之为**决策聚焦学习**（Decision-Focused Learning, DFL）的方法。以端到端的方式直接优化由预测模型引发的决策质量，产生了一种作者称之为决策损失的损失函数。

然而，使用决策损失进行训练可能具有挑战性，因为优化问题的解在预测中通常是不连续的。这导致损失函数的梯度为零或未定义，从而对学习预测模型没有帮助。为了解决这个问题，DFL 方法通常利用手工设计的替代优化任务，以提供更有用的梯度。这些替代问题可以通过放松原始问题、对目标函数添加正则化，甚至使用完全不同的但共享相同决策空间的优化问题来构建。设计好的替代问题是一门艺术，需要手动努力和对优化问题的深入理解。此外，无法保证这些替代问题会诱导出凸的决策损失，从而导致局部最优解，进一步使训练复杂化。

相反，作者提出了一种根本不同的方法：直接为给定任务学习决策损失，完全绕过替代问题的设计。作者的框架将损失表示为特定参数族中的函数，并选择能够为优化任务提供有意义损失的参数。作者将由此产生的损失称为局部优化决策损失（Locally Optimized Decision Loss, LODL）。

背景

在“预测-优化”框架中，预测模型首先将输入特征作为输入并生成预测。这些预测随后被用来参数化一个优化问题，并通过求解该问题得到决策：

需要注意的是，与典型的机器学习问题不同，的维度可能很大，因为它包含了参数化优化问题所需的所有预测。鉴于较大的维度以及所有预测在角色上的相似性，预测模型通常预测的各个分量，即。

预测的评估基于它们所引发的决策的决策损失（DL），即在真实参数下优化问题的目标函数值：

图1展示了不同方法中预测模型的学习过程。LODL不需要通过优化问题进行反向传播。

图 1：不同方法中预测模型的学习过程。

因此，对于数据集，作者的目标是学习一个模型，该模型生成的预测能够最小化决策损失：

这与标准的监督学习方法形成对比，在标准方法中，预测的质量通过某种任意的中间损失（例如均方误差）来衡量，而这些中间损失并不包含下游决策任务的信息。在本文中，作者将使用中间损失的模型称为两阶段（2-stage）方法，而直接优化的模型称为决策聚焦学习（DFL）。图1概述了如何使用这些不同方法学习预测模型。

方法论

局部优化决策损失（LODL）

在本文中，作者不再需要针对特定任务自定义优化问题的松弛形式，而是将任务特定的信息从决策损失转化为一个损失函数，该函数（i）近似于的行为，并且（ii）通过构造是凸的。作者实现这一目标的总体策略是使用监督机器学习来学习函数。具体来说，作者分三步进行：

1.作者通过两种方式简化学习问题。首先，作者为数据集中的每个对学习一个单独的，以使作者的学习问题更容易。其次，作者假设预测模型将使作者足够接近真实标签。这意味着：

2.在这些简化的基础上，作者提出了凸构造的参数化形式的。作者从目标中减去一个常数，以确保学习的函数在处具有最小值，并且结果可以通过凸函数很好地建模：

3.作者提出了不同的采样策略，并描述了用于学习最优参数的方程。

1. 局部损失函数

作者为训练集中的每个引入了一组单独的参数。作者采取这一步骤是因为学习一个全局近似（对于任意）是困难的；它需要学习一个闭式近似来解决一般优化问题，而这种闭式近似可能并不总是存在。为每个实例引入单独的参数有两个关键优势：

针对特定的学习：作者不是学习一个的函数来模仿，而是学习个不同的函数来模仿，其中。这样做显著降低了学习问题的维度——这在相对于不是很大时尤其重要（如作者的实验所示）。它还避免了在全局损失上强制执行不变性属性的需要。例如，许多优化问题对维度的排列顺序是不变的，这使得难以衡量不同实例之间的质量。在局部损失中，维度的顺序是固定的，因此这个问题不再相关。

仅针对的学习：除了上述简化外，作者并不试图学习一个对所有都进行忠实的近似——作者只限制自己在位于附近时学习的近似。作者假设作者的预测模型总是能将作者带到真实标签的附近，而的效用在于帮助区分这些点。

这两个选择的结合使得学习到的成为的“局部”替代，而不是全局替代。

2. 表示LODL

实例化作者框架的关键设计选择是用于表示LODL的参数族的选择。优化问题可能会引发复杂的损失景观，这种景观不容易用简洁参数化的闭式函数来概括。因此，作者设计了一组能够捕捉常见预测-优化问题家族中特别重要现象的参数族。

2.1局部损失的参数族

在决定为每个训练实例允许单独参数后，第二个设计选择是如何表示每个局部损失，即使用特定的参数族。作者的选择必须足够表达力强，以捕捉优化问题的局部动态，同时保持足够高效，以便在个训练实例中复制。作者提出，损失函数的结构应捕捉决策聚焦学习（DFL）最初优于两阶段学习的根本原因；这是支撑决策质量改进的关键行为。作者确定了三种关键现象，这些现象激发了损失函数族的设计：

不同维度的相对重要性：通常，预测问题的不同维度被赋予相同的权重，例如，MSE对的每个坐标的误差赋予相同的权重。然而，可能存在某些维度，DL对局部扰动更为敏感。例如，背包问题可能对处于选择边缘的物品价值误差特别敏感。在这种情况下，DFL可以捕捉准确预测不同维度的相对重要性。

相关性的成本：鉴于可能具有较大的维度，在实践中，预测模型通常不直接预测。相反，利用优化的结构进行多个预测，然后将这些预测组合起来创建。例如，在背包问题中，作者可能会训练一个模型，该模型分别预测每个物品的价值（即分别预测的每个条目），使用特定于该物品的特征，而不是使用所有物品的特征联合预测整个价值集。

预测的方向性：于某些优化问题，过度预测和不足预测通常具有不同的相关成本。使用DFL训练的预测模型可以考虑这种行为，而使用典型的对称两阶段损失（如MSE）训练的模型则不能。

作者为LODL提出了三种相应的损失函数族，每种函数族都是凸设计的，并且在真实标签处具有全局最小值，这是一个理想的属性，因为DL也在处具有最小值。

1.WeightedMSE：为了考虑不同维度的相对重要性，作者提出了MSE的加权版本：