文章信息
文章题为“Decision-Focused Learning without Differentiable Optimization: Learning Locally Optimized Decision Losses”,该文于2023年发表在NeurIPS 2022。该文章提出了一种完全用自动学习的损失函数取代决策聚焦学习中优化组件的方法。
摘要
决策聚焦学习(Decision-Focused Learning, DFL)是一种针对下游优化任务定制预测模型的范式,该任务利用模型的预测结果以在该特定任务上表现更好。DFL 的主要技术挑战在于需要能够对优化问题进行微分,这由于解的不连续性及其他挑战而变得困难。过去的研究主要通过手工设计针对特定任务的替代函数来绕过这一问题,这些替代函数在微分时能够提供有意义的梯度。然而,为每个新任务手工设计替代函数限制了 DFL 的可用性。此外,这些替代函数通常无法保证凸性,因此使用它们训练预测模型可能会导致较差的局部最优解。在本文中,作者完全摒弃了替代函数,转而学习能够捕捉任务特定信息的损失函数。
引言
预测后优化(Predict-then-optimize)是一种利用机器学习进行决策的框架。顾名思义,它分为两个阶段:首先,预测模型接收输入特征并利用它们进行预测;然后,这些预测被用来参数化一个优化问题,从而输出决策。许多现实世界的应用都涉及预测和优化两个部分,并且可以被视为预测后优化问题——例如,推荐系统中需要预测缺失的用户-物品评分 ,投资组合优化中需要预测未来表现 ,或战略决策中需要预测对手行为 。
除了广泛适用性外,这一框架还形式化了预测与决策之间的关系。这一点非常重要,因为在基于机器学习的决策系统中,此类预测模型通常独立于下游优化任务进行学习。最近在预测后优化设置中的研究表明,通过将预测模型与下游任务相匹配,可以实现更好的任务特定性能。这通常通过端到端地对整个预测和优化流程进行微分来实现,从而形成了一类作者称之为**决策聚焦学习**(Decision-Focused Learning, DFL)的方法。以端到端的方式直接优化由预测模型引发的决策质量,产生了一种作者称之为决策损失的损失函数。
然而,使用决策损失进行训练可能具有挑战性,因为优化问题的解在预测中通常是不连续的。这导致损失函数的梯度为零或未定义,从而对学习预测模型没有帮助。为了解决这个问题,DFL 方法通常利用手工设计的替代优化任务,以提供更有用的梯度。这些替代问题可以通过放松原始问题、对目标函数添加正则化,甚至使用完全不同的但共享相同决策空间的优化问题来构建。设计好的替代问题是一门艺术,需要手动努力和对优化问题的深入理解。此外,无法保证这些替代问题会诱导出凸的决策损失,从而导致局部最优解,进一步使训练复杂化。
相反,作者提出了一种根本不同的方法:直接为给定任务学习决策损失,完全绕过替代问题的设计。作者的框架将损失表示为特定参数族中的函数,并选择能够为优化任务提供有意义损失的参数。作者将由此产生的损失称为局部优化决策损失(Locally Optimized Decision Loss, LODL)。
背景
在“预测-优化”框架中,预测模型首先将输入特征作为输入并生成预测。这些预测随后被用来参数化一个优化问题,并通过求解该问题得到决策:
需要注意的是,与典型的机器学习问题不同,的维度可能很大,因为它包含了参数化优化问题所需的所有预测。鉴于较大的维度以及所有预测在角色上的相似性,预测模型通常预测的各个分量,即。
预测的评估基于它们所引发的决策的决策损失(DL),即在真实参数下优化问题的目标函数值:
图1展示了不同方法中预测模型的学习过程。LODL不需要通过优化问题进行反向传播。
图 1:不同方法中预测模型的学习过程。
因此,对于数据集,作者的目标是学习一个模型,该模型生成的预测能够最小化决策损失:
这与标准的监督学习方法形成对比,在标准方法中,预测的质量通过某种任意的中间损失(例如均方误差)来衡量,而这些中间损失并不包含下游决策任务的信息。在本文中,作者将使用中间损失的模型称为两阶段(2-stage)方法,而直接优化的模型称为决策聚焦学习(DFL)。图1概述了如何使用这些不同方法学习预测模型。
方法论
局部优化决策损失(LODL)
在本文中,作者不再需要针对特定任务自定义优化问题的松弛形式,而是将任务特定的信息从决策损失转化为一个损失函数,该函数(i)近似于的行为,并且(ii)通过构造是凸的。作者实现这一目标的总体策略是使用监督机器学习来学习函数。具体来说,作者分三步进行:
1.作者通过两种方式简化学习问题。首先,作者为数据集中的每个对学习一个单独的,以使作者的学习问题更容易。其次,作者假设预测模型将使作者足够接近真实标签。这意味着:
2.在这些简化的基础上,作者提出了凸构造的参数化形式的。作者从目标中减去一个常数,以确保学习的函数在处具有最小值,并且结果可以通过凸函数很好地建模:
3.作者提出了不同的采样策略,并描述了用于学习最优参数的方程。
1. 局部损失函数
作者为训练集中的每个引入了一组单独的参数。作者采取这一步骤是因为学习一个全局近似(对于任意)是困难的;它需要学习一个闭式近似来解决一般优化问题,而这种闭式近似可能并不总是存在。为每个实例引入单独的参数有两个关键优势:
针对特定的学习:作者不是学习一个的函数来模仿,而是学习个不同的函数来模仿,其中。这样做显著降低了学习问题的维度——这在相对于不是很大时尤其重要(如作者的实验所示)。它还避免了在全局损失上强制执行不变性属性的需要。例如,许多优化问题对维度的排列顺序是不变的,这使得难以衡量不同实例之间的质量。在局部损失中,维度的顺序是固定的,因此这个问题不再相关。
仅针对的学习:除了上述简化外,作者并不试图学习一个对所有都进行忠实的近似——作者只限制自己在位于附近时学习的近似。作者假设作者的预测模型总是能将作者带到真实标签的附近,而的效用在于帮助区分这些点。
这两个选择的结合使得学习到的成为的“局部”替代,而不是全局替代。
2. 表示LODL
实例化作者框架的关键设计选择是用于表示LODL的参数族的选择。优化问题可能会引发复杂的损失景观,这种景观不容易用简洁参数化的闭式函数来概括。因此,作者设计了一组能够捕捉常见预测-优化问题家族中特别重要现象的参数族。
2.1局部损失的参数族
在决定为每个训练实例允许单独参数后,第二个设计选择是如何表示每个局部损失,即使用特定的参数族。作者的选择必须足够表达力强,以捕捉优化问题的局部动态,同时保持足够高效,以便在个训练实例中复制。作者提出,损失函数的结构应捕捉决策聚焦学习(DFL)最初优于两阶段学习的根本原因;这是支撑决策质量改进的关键行为。作者确定了三种关键现象,这些现象激发了损失函数族的设计:
不同维度的相对重要性:通常,预测问题的不同维度被赋予相同的权重,例如,MSE对的每个坐标的误差赋予相同的权重。然而,可能存在某些维度,DL对局部扰动更为敏感。例如,背包问题可能对处于选择边缘的物品价值误差特别敏感。在这种情况下,DFL可以捕捉准确预测不同维度的相对重要性。
相关性的成本:鉴于可能具有较大的维度,在实践中,预测模型通常不直接预测。相反,利用优化的结构进行多个预测,然后将这些预测组合起来创建。例如,在背包问题中,作者可能会训练一个模型,该模型分别预测每个物品的价值(即分别预测的每个条目),使用特定于该物品的特征,而不是使用所有物品的特征联合预测整个价值集。
预测的方向性:于某些优化问题,过度预测和不足预测通常具有不同的相关成本。使用DFL训练的预测模型可以考虑这种行为,而使用典型的对称两阶段损失(如MSE)训练的模型则不能。
作者为LODL提出了三种相应的损失函数族,每种函数族都是凸设计的,并且在真实标签处具有全局最小值,这是一个理想的属性,因为DL也在处具有最小值。
1.WeightedMSE:为了考虑不同维度的相对重要性,作者提出了MSE的加权版本:
其中“权重”是LODL的参数,即(为了凸性)。
2.Quadratic:为了考虑不同维度之间相关性的影响,作者提出学习一个具有形式的二次函数:
其中是一个学习的低秩对称半正定(PSD)矩阵。只要是PSD,这个函数族就是凸的,作者通过参数化来强制执行这一点,其中是一个维度为的低秩三角矩阵,是所需的秩。这个损失函数族有一个吸引人的解释,因为学习LODL类似于估计DL关于其第一个输入的偏导数。具体来说,考虑DL关于在处的泰勒展开的前三项:
二次LODL可以看作是DL在处的二阶泰勒级数近似,其中学习的近似于DL的Hessian矩阵。注意,当时,加权MSE是这种二次损失的特例。
3.DirectedWeightedMSE 和 DirectedQuadratic:为了考虑过度预测和不足预测可能具有不同后果的事实,作者提出了对上述两种损失函数族的修改。对于加权MSE,作者重新定义权重向量如下,并学习和。同样,对于二次函数,作者根据预测的方向性定义了参数的四个副本。
3. 学习LODL
作者的目标是为每个学习一些,使得对于“接近”的,有。作者提出了一种监督学习方法来学习,该方法分为两步:
1.作者在附近构建一个数据集,映射;
2.作者使用该数据集通过最小化与真实决策损失的均方误差来估计
该框架的关键优势在于将设计良好的替代任务(一个需要深入了解每个优化问题的复杂问题)简化为监督学习(有许多可用方法)。事实上,未来的进展,例如表示学习,可以简单地插入到作者的框架中。
剩下的主要步骤是指定用于监督学习的数据集的构建。作者建议通过在附近采样一组个点并为每个点计算来构建该数据集。在本文中,作者考虑了三种采样策略:
1.全扰动(All-Perturbed):向真实标签添加零均值高斯噪声:
其中是归一化因子,是一个的单位矩阵。
2.1-扰动或2-扰动(1-Perturbed or 2-Perturbed):估计对于小的行为可以解释为估计(即关于其第一个输入的阶偏导数)在处的值,因为的所有维度同时变化。虽然计算在计算上具有挑战性,但可以使用更简单的一阶或二阶偏导数来估计。这对应于每次仅扰动一个或两个维度。
实验结果
作者使用 LODL 训练线性模型(用于线性模型领域)或具有 500 个隐藏单元的两层全连接神经网络(用于其他领域),并将其与以下方法进行比较:
随机:预测值从 中均匀采样。
最优:预测值等于真实标签 。
两阶段:模型在标准 MSE 损失上训练()。
DFL:使用指定的替代方法进行决策聚焦学习。
NN:为了确定凸性对 LODL 的重要性,作者定义 ,其中 是一个具有 100 个隐藏单元的四层全连接神经网络。
表1:每种方法实现的决策质量-越高越好。
Attention
欢迎关注微信公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,也可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!