14、参数化量子电路的强大力量

最新推荐文章于 2025-11-09 14:41:59 发布

web99

最新推荐文章于 2025-11-09 14:41:59 发布

阅读量57

点赞数

CC 4.0 BY-SA版权

分类专栏：量子计算金融应用：从理论到实践文章标签：参数化量子电路量子机器学习正则化

本文链接：https://blog.youkuaiyun.com/web99/article/details/149591194

量子计算金融应用：从理论到实践专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

参数化量子电路的强大力量

在量子机器学习（QML）领域，基于参数化量子电路（PQC）的模型十分广泛。这不仅是因为它们对噪声有一定的容忍度，更重要的是，PQC 具有一些使其优于经典机器学习模型的基本特性，主要包括抗过拟合能力和更强的表达能力。

1. 强正则化

参数化量子电路作为分类器时，和经典模型一样面临着对未见过的数据点进行良好泛化的挑战。经典的监督学习有多种模型和正则化技术可供选择，不同的模型有不同的抗过拟合方法，例如限制决策树的深度，或者在训练神经网络时在成本函数中加入惩罚项。

以传统的前馈神经网络为例，它可以说是量子分类器最直接的经典对应模型。在经典和量子情况下，信号都在网络中单向传播，量子门层可以与经典激活单元层相类比。无论使用 L1（Lasso）或 L2（Ridge）惩罚项，还是采用丢弃技术，我们都希望有一种衡量网络正则化程度的方法，以便制定对抗过拟合的最佳策略。理想情况下，这种衡量方法应适用于经典和量子神经网络，从而对它们的正则化特性进行有意义的比较。

通常，较小的网络权重与较高的正则化程度相关，而较高的网络权重则是过拟合的表现。为了量化网络的过拟合能力，Lipschitz 常数是一个很好的衡量指标。

1.1 Lipschitz 常数

给定两个度量空间 $(X, d_X)$ 和 $(Y, d_Y)$，如果存在一个常数 $k \geq 0$，使得对于所有的 $x_1, x_2 \in X$，都有 $d_Y(f(x_1), f(x_2)) \leq kd_X(x_1, x_2)$，则称函数 $f: X \to Y$ 是 Lipschitz 连续的。$k$ 的值就是 Lipschitz 常数，该函数被称为 $k$-Lipschitz 函数。我们关注的是最小的 Lipschitz 常数，或者至少是它的上界。

对于前馈神经网络的第 $j$ 层，$x_1$ 和 $x_2$ 是前一层（第 $j - 1$ 层）的 $n$ 维样本输出，$f(x_1)$ 和 $f(x_2)$ 是第 $j$ 层的 $m$ 维输出。度量 $d_X$ 和 $d_Y$ 可以是 L1 或 L2 范数。

一个由 $l$ 个全连接层组成的前馈神经网络可以表示为一系列函数的组合：$f(x) = (\phi_l \circ \phi_{l - 1} \circ \cdots \circ \phi_1)(x)$，其中每个 $\phi_j$ 实现了对 $n$ 维输入 $x$ 的第 $j$ 层仿射变换，由一个 $m \times n$ 的权重矩阵 $W_j$ 和一个 $m$ 维的偏置向量 $b_j$ 参数化：$\phi_j(x) = W_jx + b_j$。

由于 $k_1$-Lipschitz 函数与 $k_2$-Lipschitz 函数的组合是 $k_1k_2$-Lipschitz 函数，我们可以分别计算每一层的 Lipschitz 常数，然后将它们组合起来得到整个网络的 Lipschitz 常数的上界。

选择 $d_X$ 和 $d_Y$ 为 L2 范数 $|\cdot|_2$，根据 Lipschitz 连续性的定义，对于全连接网络层 $j$ 有：$|(W_jx_1 + b_j) - (W_jx_2 + b_j)|_2 \leq k|x_1 - x_2|_2$。引入 $a = x_1 - x_2$ 并假设 $x_1 \neq x_2$，我们得到估计：$\frac{|W_ja|_2}{|a|_2} \leq k$。

全连接网络层的最小 Lipschitz 常数 $L(\phi_j)$ 等于不等式左边的上确界：$L(\phi_j) := \sup_{a \neq 0} \frac{|W_ja|_2}{|a|_2}$。这个算子范数等于权重矩阵 $W_j$ 的最大奇异值，也就是谱范数，可以使用合适的开源软件包（如 scikit-learn 中的 sklearn.decomposition.TruncatedSVD）轻松计算。

对于量子神经网络，任何作用于 $n$ 个量子比特的参数化量子电路，无论多么复杂和深入，都可以用一个 $2^n \times 2^n$ 的酉矩阵表示。由于酉矩阵的所有奇异值都等于 1，这为比较各种网络的正则化能力提供了一个自然的基准。

1.2 正则化示例

以澳大利亚信用审批（ACA）数据集为例，我们可以比较经典和量子神经网络的性能，并通过 Lipschitz 常数来监测正则化程度。

经典神经网络是一个具有两个隐藏层的多层感知器（MLP）分类器。每个隐藏层的激活单元数量与 ACA 数据集中的特征数量相同（14 个），因此需要计算两个 $14 \times 14$ 方阵的最大奇异值。使用 sklearn.preprocessing.StandardScaler 对特征进行标准化处理。MLP 分类器的超参数设置如下表所示：
| 超参数 | 值 |
| ---- | ---- |
| 隐藏层数量 | 2 |
| 每层激活单元数量 | 14 |
| 激活函数 | tanh |
| 求解器 | adam |
| 初始学习率 | 0.01 |
| 迭代次数 | 5000 |
| 随机状态 | 0 |
| 正则化参数 $\alpha$ | 可变 |

MLP 分类器的正则化参数 $\alpha$ 是控制变量，它控制着网络成本函数中的 L2 正则化项，$\alpha$ 越大，对较大网络权重的惩罚就越重。其他参数均设置为默认值。

量子神经网络由 7 个固定的双量子比特门（CZ）和 15 个可调的单量子比特门（RX 和 RY）组成。将 ACA 数据集按 50:50 划分为训练集和测试集，比较 MLP 和量子神经网络（QNN）分类器在样本内和样本外数据集上的性能，结果如下表所示：
| 分类器 | 样本内平均 F1 分数 | 样本外平均 F1 分数 | Lipschitz 常数（上界） |
| ---- | ---- | ---- | ---- |
| MLP, $\alpha = 0.001$ | 1.00 | 0.78 | 36.2 |
| MLP, $\alpha = 0.01$ | 1.00 | 0.79 | 33.5 |
| MLP, $\alpha = 0.1$ | 1.00 | 0.80 | 18.6 |
| MLP, $\alpha = 1$ | 0.99 | 0.83 | 7.4 |
| MLP, $\alpha = 10$ | 0.90 | 0.86 | 1.3 |
| MLP, $\alpha = 40$ | 0.85 | 0.86 | 0.5 |
| MLP, $\alpha = 50$ | 0.35 | 0.37 | $1e - 05$ |
| QNN | 0.86 | 0.85 | 1.0 |

从结果可以看出，QNN 提供了很强的正则化，在样本内和样本外数据集上的性能相似，这与由酉矩阵表示的网络预期一致。而且，MLP 只有在正则化参数 $\alpha$ 取非常大的值时才能达到与 QNN 相当的正则化程度，但过大的 $\alpha$ 会完全破坏网络的学习能力，对于所选的 MLP 配置，$\alpha$ 的临界值在 40 到 50 之间。

参数化量子电路可以表示为（高维）保范的酉矩阵，这确保了量子神经网络具有很强的正则化特性。

2. 表达能力

PQC 可用于解决优化问题（如 QAOA 和 VQE）以及各种机器学习任务，包括判别式（QNN 分类器）和生成式（QCBM 市场生成器）用例。用于量子机器学习任务的 PQC 一般可分为两种类型：张量网络 PQC（TPQC）和多层 PQC（MPQC）。

在探讨它们的表达能力之前，先看一个简单的单量子寄存器量子电路示例：

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;

    A(|0⟩):::startend --> B(H):::process --> C(RZ(θz)):::process --> D(RX(θx)):::process --> E(RY(θy)):::process --> F(|ψD⟩):::startend
    A1(|0⟩):::startend --> B1(H):::process --> C1(RZ(θz)):::process --> D1(RX(θx)):::process --> E1(|ψC⟩):::startend
    A2(|0⟩):::startend --> B2(H):::process --> C2(RZ(θz)):::process --> D2(|ψB⟩):::startend
    A3(|0⟩):::startend --> B3(H):::process --> C3(|ψA⟩):::startend

PQC A ：初始量子比特状态为 $|0⟩$，仅使用 Hadamard 门 $H$ 将其转换为 $\frac{|0⟩ + |1⟩}{\sqrt{2}}$，因此状态 $|ψ_A⟩$ 只能是布洛赫球上的一个点。
PQC B ：同样从 $|0⟩$ 开始，先应用 Hadamard 门，然后绕 $z$ 轴旋转一个从 $[-\pi, \pi]$ 均匀分布中抽取的角度 $\theta_z$，最终状态 $|ψ_B⟩$ 可以是赤道上的任意点，且每个点的概率相等。
PQC C ：在 PQC B 的基础上增加了绕 $x$ 轴旋转一个从 $[-\pi, \pi]$ 均匀分布中抽取的角度 $\theta_x$，可以到达布洛赫球上的任意点，但点的分布不均匀，在 $\frac{|0⟩ + |1⟩}{\sqrt{2}}$ 和 $\frac{|0⟩ - |1⟩}{\sqrt{2}}$ 附近密度最高，在 $90^{\circ}$ 和 $270^{\circ}$ 子午线处密度最低。
PQC D ：在 PQC C 的基础上再增加绕 $y$ 轴旋转一个从 $[-\pi, \pi]$ 均匀分布中抽取的角度 $\theta_y$，使得布洛赫球上的点分布更加均匀，所有点都能以相等的概率到达。

因此，从探索希尔伯特空间的能力来看，这些 PQC 的表达能力层次为：$PQC D > PQC C > PQC B > PQC A$。

2.1 多层 PQC（MPQC）

MPQC 由多个量子电路块组成，每个块中的量子门排列相同。输入的 $n$ 个量子比特的量子态在计算基下都初始化为 $|0⟩$，即 $|0⟩^{\otimes n}$，总块数为 $l$，第 $i$ 个块表示为 $U(\theta_i)$，其中参数数量与量子比特数量成正比，$n$ 与生成数据的维度呈对数关系。电路生成的输出状态为：$|\psi⟩ = \prod_{i = 1}^{l} U(\theta_i)|0⟩^{\otimes n}$。

2.2 张量网络 PQC（TPQC）

TPQC 将每个块视为局部张量，块的排列遵循特定的网络结构，如矩阵乘积态或树张量网络。第 $i$ 个块 $U(\theta_i)$ 由 $M_i$ 个局部张量块组成，$M_i \propto \frac{n}{2^i}$，表示为 $U(\theta_i) = \bigotimes_{j = 1}^{M_i} U(\theta_{i_j})$，许多张量块可能是单位算子。生成的状态形式为：$|\psi⟩ = \prod_{i = 1}^{l} \bigotimes_{j = 1}^{M_i} U(\theta_{i_j})|0⟩^{\otimes n}$。

2.3 表达能力的衡量

要回答 MPQC 和 TPQC 是否比其经典对应模型（如经典神经网络）具有更强的表达能力，需要有合适的衡量方法。表达能力可以用多种方式定义，如模型表达变量之间不同关系的能力，或者通过模型的复杂度来量化，常用的复杂度度量包括 Vapnik - Chervonenkis 维度和 Fisher 信息。而纠缠熵是一种很自然的表达能力度量，它可以对量子和经典机器学习模型进行明确的排序。

回顾统计力学中的吉布斯熵 $S$ 和信息论中的香农熵 $H$ 的定义：
$S := -k_B \sum_{i} p_i \log(p_i)$
$H := - \sum_{i} p_i \log_2(p_i)$

其中，在吉布斯熵的情况下，$p_i$ 是从平衡系综中选取微观状态 $i$ 的概率；在香农熵的情况下，$p_i$ 是从消息空间中选取消息 $i$ 的概率。

这些熵的定义可以扩展到量子情况。在量子力学中，使用密度矩阵 $\rho := \sum_{i = 1}^{N} \sum_{j = 1}^{N} \rho_{ij} |i⟩⟨j|$ 来描述纯态和混合态，冯·诺伊曼熵 $S$ 定义为：$S(\rho) := -Tr(\rho \log(\rho))$。

如果系统由两部分 $A$ 和 $B$ 组成，可以通过对密度矩阵在不感兴趣的希尔伯特子空间上进行部分求迹来定义约化密度矩阵。例如，对于一个两量子比特系统处于状态 $|\psi⟩ = \frac{1}{\sqrt{2}}(|01⟩ + |10⟩)$，假设第一个量子比特为系统 $A$，第二个量子比特为系统 $B$，其密度矩阵为 $\rho_{AB} := |\psi⟩⟨\psi| = \frac{1}{2}(|01⟩⟨01| + |01⟩⟨10| + |10⟩⟨01| + |10⟩⟨10|)$。对其进行关于 $B$ 的部分求迹得到约化密度矩阵 $\rho_A = \frac{1}{2}(|0⟩⟨0| + |1⟩⟨1|)$，这表示一个统计系综，即物理系统以相等的概率处于 $|0⟩$ 或 $|1⟩$ 状态。

两部分系统 $AB$ 的纠缠熵定义为：$S(\rho_A) := -Tr(\rho_A \log(\rho_A)) = -Tr(\rho_B \log(\rho_B)) =: S(\rho_B)$，可以作为模型表达能力的一种度量。TPQC、MPQC 和经典神经网络与张量网络（如矩阵乘积态 MPS）密切相关，关键问题是给定的量子系统能否由 MPS 有效表示。满足面积定律（纠缠熵与边界面积成正比）的量子系统可以由 MPS 有效表示，而满足体积定律（纠缠熵与体积成正比）的量子系统则不能。

2.4 PQC 的表达能力

受限玻尔兹曼机（RBM）是参数化量子电路的自然经典对应模型，有浅层两层网络和深层多层堆叠的深度玻尔兹曼机（DBM）两种类型。还可以对 RBM 层之间的连接进行进一步限制，分为短程 RBM 和长程 RBM。

研究表明，所有短程 RBM 状态的纠缠熵满足任意维度和二分几何的面积定律，而长程 RBM 状态可能表现出体积定律纠缠，因此长程 RBM 能够表示具有大纠缠的量子态。

使用纠缠熵作为表达能力的度量，有定理表明：具有 $O(poly(n))$ 单量子比特门和 CNOT 门的 MPQC 和 TPQC，以及具有 $O(poly(n))$ 可训练参数的经典神经网络（其中 $n$ 指量子比特或可见单元的数量）的表达能力排序为：$MPQC > DBM > 长程 RBM > TPQC > 短程 RBM$。

这个定理为基于 PQC 的 QML 模型的实验研究提供了坚实的理论基础。近年来，由于 PQC 比其经典对应模型具有更强的表达能力，催生了许多相关模型的发展。例如，一种适用于 NISQ 设备的混合量子 - 经典方法，利用量子纠缠的更强表达能力，通过数值模拟表明量子长短期记忆（QLSTM）模型比具有相似网络参数数量的经典 LSTM 学习速度更快，收敛更稳定。还有量子卷积神经网络（QCNN），通过用基于变分量子电路的量子卷积核替换经典卷积滤波器，由于其更强的表达能力，在测试中比经典 CNN 取得了更高的准确率。

当只允许使用多项式数量的参数时，像 QCBM 这样的多层参数化量子电路比像 RBM 这样的经典模型具有更严格的更强表达能力。对于表现出量子优越性的系统，经典模型除非使用指数级增长的资源，否则无法学习重现其统计特性。

综上所述，参数化量子电路的强大力量源于其架构中固有的强正则化特性和更强的表达能力，这些特性为量子机器学习的发展提供了广阔的前景。

参数化量子电路的强大力量（续）

3. 总结与展望

我们已经深入探讨了参数化量子电路（PQC）的两大关键特性：强正则化和表达能力，这些特性使得 PQC 在量子机器学习（QML）领域展现出巨大的潜力。

3.1 强正则化的优势

参数化量子电路的强正则化特性是其重要优势之一。通过酉矩阵表示，量子神经网络能够自然地实现强正则化，有效避免过拟合问题。以澳大利亚信用审批（ACA）数据集的实验为例，量子神经网络（QNN）在样本内和样本外数据集上都表现出了相似的性能，这与由酉矩阵表示的网络预期一致。相比之下，经典的多层感知器（MLP）分类器需要非常大的正则化参数 $\alpha$ 才能达到类似的正则化效果，但过大的 $\alpha$ 会破坏网络的学习能力。这种强正则化特性使得量子神经网络在处理实际数据时更加稳定和可靠。

3.2 表达能力的层次结构

PQC 的表达能力是其另一个显著优势。通过对单量子寄存器量子电路的示例分析，我们了解到不同结构的 PQC 具有不同的表达能力，如 $PQC D > PQC C > PQC B > PQC A$。对于多层 PQC（MPQC）和张量网络 PQC（TPQC），它们的表达能力可以通过纠缠熵等方法进行衡量。研究表明，MPQC 和 TPQC 的表达能力与经典神经网络存在一定的层次关系，即 $MPQC > DBM > 长程 RBM > TPQC > 短程 RBM$。这种表达能力的层次结构为我们选择合适的模型提供了理论依据，也为量子机器学习模型的设计和优化提供了方向。

3.3 量子优势的体现

PQC 的强正则化和表达能力共同体现了量子优势。在实际应用中，基于 PQC 的 QML 模型已经取得了一些令人瞩目的成果。例如，量子长短期记忆（QLSTM）模型比经典 LSTM 学习速度更快，收敛更稳定；量子卷积神经网络（QCNN）在测试中比经典 CNN 取得了更高的准确率。这些成果表明，PQC 在处理复杂数据和解决复杂问题时具有明显的优势，有望在未来的机器学习领域发挥重要作用。

3.4 未来研究方向

尽管 PQC 在 QML 领域已经取得了一定的进展，但仍有许多问题需要进一步研究。以下是一些未来的研究方向：
- 模型优化 ：进一步探索如何优化 PQC 的结构和参数，以提高其正则化能力和表达能力。例如，研究如何设计更有效的量子门排列和参数调整策略。
- 算法设计 ：开发新的量子机器学习算法，充分发挥 PQC 的优势。例如，结合量子纠缠和量子并行性，设计更高效的分类、聚类和生成算法。
- 实验验证 ：进行更多的实验验证，验证 PQC 在不同领域和数据集上的性能。例如，在金融、医疗、图像识别等领域开展实验，评估 PQC 的实际应用效果。
- 与经典模型的融合 ：探索如何将 PQC 与经典机器学习模型相结合，发挥两者的优势。例如，开发混合量子 - 经典模型，利用量子计算的强大计算能力和经典模型的成熟技术。

4. 结论

参数化量子电路以其强正则化和强大的表达能力，为量子机器学习领域带来了新的机遇和挑战。通过对 PQC 的深入研究，我们不仅可以更好地理解量子计算在机器学习中的应用，还可以为解决实际问题提供更有效的方法。未来，随着量子技术的不断发展和完善，PQC 有望在更多领域取得突破，为推动人工智能和机器学习的发展做出重要贡献。

以下是一个简单的表格总结 PQC 与经典模型的对比：
| 模型类型 | 正则化能力 | 表达能力 | 学习速度 | 收敛稳定性 |
| ---- | ---- | ---- | ---- | ---- |
| 量子神经网络（QNN） | 强 | 强 | 快 | 稳定 |
| 多层感知器（MLP） | 弱（需大 $\alpha$） | 弱 | 慢 | 不稳定 |
| 量子长短期记忆（QLSTM） | 强 | 强 | 快 | 稳定 |
| 经典长短期记忆（LSTM） | 弱 | 弱 | 慢 | 不稳定 |
| 量子卷积神经网络（QCNN） | 强 | 强 | 快 | 稳定 |
| 经典卷积神经网络（CNN） | 弱 | 弱 | 慢 | 不稳定 |

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;

    A(参数化量子电路):::startend --> B(强正则化):::process
    A --> C(表达能力):::process
    B --> D(避免过拟合):::process
    B --> E(稳定可靠):::process
    C --> F(层次结构):::process
    C --> G(量子优势):::process
    D --> H(实际应用效果好):::process
    E --> H
    F --> I(模型选择依据):::process
    G --> J(新模型成果):::process
    I --> K(未来研究方向):::process
    J --> K
    K --> L(模型优化):::process
    K --> M(算法设计):::process
    K --> N(实验验证):::process
    K --> O(与经典模型融合):::process

这个流程图展示了参数化量子电路的特性、优势以及未来的研究方向之间的关系，帮助我们更清晰地理解整个体系。总之，参数化量子电路在量子机器学习领域具有广阔的应用前景，值得我们进一步深入研究和探索。