定义问题以及用QUBO表示约束

最新推荐文章于 2025-09-06 11:24:34 发布

原创最新推荐文章于 2025-09-06 11:24:34 发布 · 7.6k 阅读

30 ·

CC 4.0 BY-SA版权

量子机器学习专栏收录该内容

7 篇文章

订阅专栏

本文介绍了如何使用QUBO（Quadratic Unconstrained Binary Optimization）来表示和解决二值优化问题。通过定义目标函数、问题缩放和建立QUBO来表示约束，展示了D-Wave系统在解决此类问题中的工作原理。具体讨论了如何构建一个确保只有一个变量为真的QUBO模型，并将其转换为图结构。通过实例解释了QUBO在解决如旅行销售人员问题等约束满足问题中的应用。

定义问题以及用QUBO表示约束

D-Wave擅长解决的问题之一就是二值优化（optimization of binary variables）问题。二值变量只有变量 0（NO, or FALSE）和变量 1（YES, or TRUE）。

传统计算机可以被认为是由逻辑门（logic gates）组成的，逻辑门是一种简单的决策装置，其根据输入产生输出。虽然 D-Wave 系统并不是基于门的，但巧合的是一个特殊的门（异或门）形成了系统要解决的第一个优化问题。

异或门内容如下：
假设由两个二值的输入 $a, b$ 。若 $a = 0 且 b = 0$ ，则输出为 $1$ , 若 $a = 1 且 b = 1$ ，则输出为 $1$ , 其他情况下输出为0.

定义目标函数

对于一个有两个qubit的问题，我们希望在退火之后的 qubits 得到一样的值。qubit 的状态有4种情况，如下表所示：

$q_0$	$q_1$
0	0
0	1
1	0
1	1

我们需要定义一个目标函数，使其最终实现状态（0，0）和（1，1）。在目标函数中，qubit 是变量。bias（qubit 偏置）和 strengths（couplers 的强度）是线性项和二次项上的系数。两个 qubit 问题的目标函数有三个项。目标函数的形式如下：

$a_1 q_1 + a_2 q_2 + b_{1,2} q_1 q_2 \tag{5.1}$

其中 $s$ 是变量 $q=[q_1,q_2]$ 的向量， $a_1$ 和$ a_2$ 是 qubit biases， $b_{1,2}$ 是 coupler 的权重（strengths）。

设置满足最初目标的 $a_1,a_2,b_{1,2}$ 。首先可以看到，当 $q_1$ 和 $q_2$ 都等于0（记为(0,0)）时，目标函数的值为0，也没有其他可调参数。这就是我们希望得到的状态，对应于基态的最小能量应该为0。同时不希望有状态(0,1)和(1,0)。一种办法就是给 $a_1,a_2$ 两个 biases 都设置为 0.1:

$q_0$	$q_1$	Objective Value
0	0	0
0	1	0.1
1	0	0.1
1	1	0.2 + $b_{1,2}$

又因为状态(1,1)也是我们希望得到的状态，一种方式就是给coupler权重设置 $b_{1,2}=-0.2$ .最终的目标函数是：

$f(s)=0.1q1+0.1q2−0.2q1q2(5.2)f(s)=0.1q_1 + 0.1q_2 - 0.2q_1q_2 \tag{5.2}$

上述表格的输出就变成如下所示：

$q_0$	$q_1$	Objective Value
0	0	0
0	1	0.1
1	0	0.1
1	1	0

当我们对这个问题在D-Wave系统上运行了很多次退火之后（也称为 采样(samples) or 读取(reads)），我们希望得到基态(0,0)和(1,1)，而不是激发态(0,1)和(1,0)。

把这个问题在D-Wave2000Q系统上运行1000次之后，可以获得1000个采样结果。

Energy	State	Occurrences
0	(0,0)	555
0	(1,1)	443
0.1	(0,1)	1
0,1	(1,0)	1

如果再次运行这个问题，我们期望得到的 energy 0 可能会有不同，但是一定是在500的附近（样本的50%左右）。

需要注意的是，结果中大多数情况是(0,0)和(1,1)，调用足够多次QPU时，会看到偶尔的(0,1)和(1,0)这样的解。对于更复杂的 QUBOs ，这种反复求解同一个问题以获得一系列答案的过程称为采样（sampling）。

问题缩放（Problem Scaling）

考虑另外一个 2-qubit 问题，这次给 qubit biases 和 coupler strength 分别赋值0.5和1，目标函数如下：

$0.5q_1 + 0.5q_2 - q_1q_2 \tag{5.3}$

同上，可以得到如下结果：

$q_0$	$q_1$	Objective Value
0	0	0.5
0	1	0.5
1	0	0.5
1	1	0

因为这个问题的激发态和前面那个问题中的值不同，导致基态和激发态之间的能量差更大（0.5 和 0.1），所以这次可能会看到不同的结果。话句话说，当基态和激发态之间存在较大的间隙（能量差）时，从基态更不容易达到激发态。

前面在第一个问题中，我们在返回的结果中可以看到了一小部分激发态。如果我们多次运行这两个问题，通常会观察到相同的结果，但实际是第二个问题(明显)存在较大差距，这与我们的预期的50%差别有点大。

这一结果是由D-Wave系统的一个称为**自动缩放（auto-scaling）**的功能引起的。每个QPU的偏差 $a$ 和强度 $b$ 都有一个允许的范围值。除非我们明确禁用自动缩放，否则D-Wave软件会调整问题的 $a$ 和 $b$ 的值，使得把问题发送到QPU之前采用整个可用的(a，b)范围。因此，在运行这两个问题时，它们向QPU呈现相同的(a，b)值，因此返回的解决方案实际上是相同的。当在运行结束返回能量值和目标值时，我们使用的是预缩放（pre-scaling）值。