深入理解GPyTorch中的变分策略与变分分布优化-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00909/article/details/148553078

深入理解GPyTorch中的变分策略与变分分布优化

gpytorch A highly efficient implementation of Gaussian Processes in PyTorch 项目地址: https://gitcode.com/gh_mirrors/gpy/gpytorch

引言

高斯过程(Gaussian Processes, GPs)是一种强大的非参数贝叶斯模型，但在处理大规模数据集时会面临计算复杂度高的问题。GPyTorch通过变分推断(Variational Inference)方法提供了高效的近似解决方案。本文将深入探讨如何通过修改变分策略和变分分布来优化近似高斯过程的性能和效率。

变分近似高斯过程基础

在变分近似高斯过程中，预测分布可以表示为：

$$ p( \mathbf f(\mathbf x^) ) = \int_{\mathbf u} p( f(\mathbf x^) \mid \mathbf u) : q(\mathbf u) : d\mathbf u, \quad q(\mathbf u) = \mathcal N( \mathbf m, \mathbf S). $$

其中：

$\mathbf u$ 表示在m个诱导点(inducing points)处的函数值
$\mathbf m \in \mathbb R^m$ 和 $\mathbf S \in \mathbb R^{m \times m}$ 是可学习参数

当诱导点数量m较大时，$\mathbf S$中的可学习参数数量会变得非常庞大，导致计算效率下降。下面我们将介绍几种优化方法。

实验设置

我们使用UCI数据集中的"elevators"数据集进行实验，这是一个中等规模的回归问题数据集。首先进行数据预处理：

import torch
import gpytorch

# 数据加载和预处理
data = torch.Tensor(loadmat('elevators.mat')['data'])
X = data[:, :-1]
X = X - X.min(0)[0]
X = 2 * (X / X.max(0)[0]) - 1
y = data[:, -1]

# 划分训练集和测试集
train_n = int(floor(0.8 * len(X)))
train_x = X[:train_n, :].contiguous()
train_y = y[:train_n].contiguous()
test_x = X[train_n:, :].contiguous()
test_y = y[train_n:].contiguous()

标准方法分析

标准方法使用CholeskyVariationalDistribution和VariationalStrategy，这是最通用的变分分布形式，允许$\mathbf S$为任意半正定矩阵。

class StandardApproximateGP(gpytorch.models.ApproximateGP):
    def __init__(self, inducing_points):
        # 使用Cholesky分解的变分分布
        variational_distribution = gpytorch.variational.CholeskyVariationalDistribution(
            inducing_points.size(-2))
        variational_strategy = gpytorch.variational.VariationalStrategy(
            self, inducing_points, variational_distribution, 
            learn_inducing_locations=True
        )
        super().__init__(variational_strategy)
        self.mean_module = gpytorch.means.ConstantMean()
        self.covar_module = gpytorch.kernels.ScaleKernel(
            gpytorch.kernels.RBFKernel())

这种方法虽然表达能力强，但当诱导点数量增加时，参数数量和计算复杂度会显著增加。

参数优化策略

1. 对角协方差矩阵方法

通过限制$\mathbf S$为对角矩阵，可以将参数数量从$O(m^2)$减少到$O(m)$。这通过MeanFieldVariationalDistribution实现：

class MeanFieldApproximateGP(gpytorch.models.ApproximateGP):
    def __init__(self, inducing_points):
        # 使用对角协方差矩阵的变分分布
        variational_distribution = gpytorch.variational.MeanFieldVariationalDistribution(
            inducing_points.size(-2))
        variational_strategy = gpytorch.variational.VariationalStrategy(
            self, inducing_points, variational_distribution, 
            learn_inducing_locations=True
        )

这种方法减少了参数数量，虽然表达能力有所降低，但在许多实际应用中仍能取得良好效果。

2. 无协方差矩阵方法（MAP估计）

更极端的参数优化是完全去除$\mathbf S$矩阵，使用DeltaVariationalDistribution实现：

class MAPApproximateGP(gpytorch.models.ApproximateGP):
    def __init__(self, inducing_points):
        # 使用delta分布的变分分布
        variational_distribution = gpytorch.variational.DeltaVariationalDistribution(
            inducing_points.size(-2))
        variational_strategy = gpytorch.variational.VariationalStrategy(
            self, inducing_points, variational_distribution, 
            learn_inducing_locations=True
        )

这相当于进行最大后验(MAP)估计而非变分推断，进一步减少了计算负担。

计算优化策略：正交解耦变分策略

Salimbeni等人提出的正交解耦变分高斯过程方法，通过使用不同的诱导点集合分别处理均值和协方差计算，可以显著降低计算复杂度：

def make_orthogonal_vs(model, train_x):
    # 均值诱导点数量较多(1000个)
    mean_inducing_points = torch.randn(1000, train_x.size(-1))
    # 协方差诱导点数量较少(100个)
    covar_inducing_points = torch.randn(100, train_x.size(-1))
    
    covar_variational_strategy = gpytorch.variational.VariationalStrategy(
        model, covar_inducing_points,
        gpytorch.variational.CholeskyVariationalDistribution(
            covar_inducing_points.size(-2)),
        learn_inducing_locations=True
    )
    
    variational_strategy = gpytorch.variational.OrthogonallyDecoupledVariationalStrategy(
        covar_variational_strategy, mean_inducing_points,
        gpytorch.variational.DeltaVariationalDistribution(
            mean_inducing_points.size(-2)),
    )
    return variational_strategy

这种策略利用了均值计算相对简单而协方差计算复杂的特点，通过解耦优化计算效率。