14、参数化量子电路的强大力量

参数化量子电路的强大力量

1. 引言

基于参数化量子电路(PQC)的量子机器学习(QML)模型种类繁多。这部分归因于其对噪声的耐受性,在使用含噪声中等规模量子(NISQ)硬件时,这一特性尤为重要。然而,这并不能完全解释PQC的受欢迎程度,以及它们为何被视为经典机器学习模型的强劲竞争对手。PQC必定具备一些使其优于经典模型的基本特性,本文将探讨其中两个特性:抗过拟合能力和更强的表达能力。

2. 强正则化

作为分类器训练的参数化量子电路面临着与经典模型相同的挑战,即需要对未见数据点有良好的泛化能力。经典方法中有多种监督学习模型和正则化技术可供选择,且这些对抗过拟合的正则化技术因模型而异。例如,训练决策树时可限制其深度,训练神经网络时可在成本函数中添加惩罚项。

以传统前馈神经网络为例,它可被视为量子分类器最直接的经典对应。在经典和量子情况下,信号都在网络中单向传播,量子门层可与经典激活单元层相类比。无论使用L1(Lasso)或L2(Ridge)惩罚项,还是采用丢弃技术,我们都希望有一种衡量网络正则化程度的方法。这不仅是一个有趣的理论问题,也是一项重要的实践任务,有助于我们制定对抗过拟合的最优策略。理想情况下,这种衡量方法应适用于经典和量子神经网络,以便对它们的正则化特性进行有意义的比较。

通常,较小的网络权重与高度正则化相关,而较大的网络权重则是过拟合的症状。因此,拥有一个正式的数学工具来量化网络过拟合的能力是非常必要的,Lipschitz常数就是这样一种定义明确的衡量正则化程度的方法。

2.1 Lipschitz常数

给定两个度量空间$(X, d_X)$和$(Y, d_Y)$,若存在常数$k \geq 0$,使得对于所有$x_1, x_2 \in X$,都有$d_Y(f(x_1), f(x_2)) \leq kd_X(x_1, x_2)$,则称函数$f: X \to Y$是Lipschitz连续的。$k$的值被称为Lipschitz常数,该函数被称为$k$-Lipschitz函数。我们关注的是最小可能的Lipschitz常数,或至少是其上限。

对于前馈神经网络的第$j$层,$x_1$和$x_2$是第$j - 1$层的$n$维样本输出,$f(x_1)$和$f(x_2)$是第$j$层的$m$维输出。度量$d_X$和$d_Y$可以是L1或L2范数。

一个由$l$个全连接层组成的前馈神经网络可以表示为一系列函数的组合:
$f(x) = (\phi_l \circ \phi_{l - 1} \circ \cdots \circ \phi_1)(x)$
其中,每个$\phi_j$实现了对$n$维输入$x$的第$j$层仿射变换,由一个$m \times n$的权重矩阵$W_j$和一个$m$维的偏置向量$b_j$参数化:
$\phi_j(x) = W_jx + b_j$

一个$k_1$-Lipschitz函数与一个$k_2$-Lipschitz函数的组合是一个$k_1k_2$-Lipschitz函数。因此,我们可以分别计算每层的Lipschitz常数,然后将它们组合起来,得到整个网络Lipschitz常数的上限。

选择$d_X$和$d_Y$为L2范数$|\cdot|_2$,根据全连接网络层$j$的Lipschitz连续性定义,我们得到:
$|(W_jx_1 + b_j) - (W_jx_2 + b_j)|_2 \leq k|x_1 - x_2|_2$
令$a = x_1 - x_2$,并假设$x_1 \neq x_2$,则有:
$\frac{|W_ja|_2}{|a|_2} \leq k$

全连接网络层的最小Lipschitz常数$L(\phi_j)$等于上述不等式左边的上确界:
$L(\phi_j) := \sup_{a \neq 0} \frac{|W_ja|_2}{|a|_2}$

该算子范数由权重矩阵$W_j$的最大奇异值给出,对应于谱范数,即矩阵可以拉伸向量的最大比例。可以使用合适的开源软件包轻松计算,例如scikit-learn包中的 sklearn.decomposition.TruncatedSVD

对于量子神经网络,任何作用于$n$个量子比特的参数化量子电路,无论多么复杂和深入,都可以用一个$2^n \times 2^n$的酉矩阵表示。由于酉矩阵的所有奇异值都等于1,这为比较各种网络的正则化能力提供了一个自然的基准。

2.2 正则化示例

以澳大利亚信用审批(ACA)数据集为例,我们可以比较经典和量子神经网络的性能,并通过Lipschitz常数来监测正则化程度。

经典神经网络是一个具有两个隐藏层的多层感知器(MLP)分类器。每个隐藏层的激活单元数量与ACA数据集中的特征数量相同(14个),因此我们需要计算两个$14 \times 14$方阵的最大奇异值。使用 sklearn.preprocessing.StandardScaler 对特征进行标准化处理。MLP分类器的超参数设置如下表所示:
| 超参数 | 值 |
| — | — |
| 隐藏层数量 | 2 |
| 每层激活单元数量 | 14 |
| 激活函数 | tanh |
| 求解器 | adam |
| 初始学习率 | 0.01 |
| 迭代次数 | 5000 |
| 随机状态 | 0 |
| 正则化参数$\alpha$ | 可变 |

MLP分类器的正则化参数$\alpha$是控制变量,它控制着网络成本函数中的L2正则化项:$\alpha$值越大,对较大网络权重的惩罚就越重。其他参数均设置为默认值。

量子神经网络由7个固定的双量子比特门(CZ)和15个可调的单量子比特门(RX和RY)组成。将ACA数据集按50:50的比例划分为训练集和测试集,使用 sklearn.preprocessing.StandardScaler 进行标准化处理。比较MLP和量子神经网络(QNN)分类器在样本内和样本外数据集上的性能,结果如下表所示:
| 分类器 | 样本内平均F1分数 | 样本外平均F1分数 | Lipschitz常数(上限) |
| — | — | — | — |
| MLP, $\alpha = 0.001$ | 1.00 | 0.78 | 36.2 |
| MLP, $\alpha = 0.01$ | 1.00 | 0.79 | 33.5 |
| MLP, $\alpha = 0.1$ | 1.00 | 0.80 | 18.6 |
| MLP, $\alpha = 1$ | 0.99 | 0.83 | 7.4 |
| MLP, $\alpha = 10$ | 0.90 | 0.86 | 1.3 |
| MLP, $\alpha = 40$ | 0.85 | 0.86 | 0.5 |
| MLP, $\alpha = 50$ | 0.35 | 0.37 | $1e - 05$ |
| QNN | 0.86 | 0.85 | 1.0 |

从表中可以看出,QNN提供了强大的正则化能力,在样本内和样本外数据集上的性能相似,这与由酉矩阵表示的网络预期相符。此外,MLP只有在正则化参数$\alpha$取非常大的值时才能达到与QNN相当的正则化程度,而当$\alpha$进一步增大时,网络的学习能力将被完全破坏。对于所选的MLP配置,$\alpha$的临界值在40到50之间。

参数化量子电路可以表示为(高维)保范酉矩阵,这确保了量子神经网络具有强大的正则化特性。

3. 表达能力

参数化量子电路可应用于解决优化问题(如QAOA和VQE)以及各种机器学习任务,包括判别式(QNN分类器)和生成式(QCBM市场生成器)用例。用于量子机器学习任务的PQC通常可分为两种类型:张量网络PQC(TPQC)和多层PQC(MPQC)。

在探讨它们的表达能力之前,先来看一个简单的示例:在单个量子寄存器上指定的量子电路。以下是四个具有不同表达能力的单量子比特电路:

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px

    A1([|0⟩]):::startend --> B1(H):::process --> C1(|ψA⟩):::startend
    A2([|0⟩]):::startend --> B2(H):::process --> C2(RZ(θz)):::process --> D2(|ψB⟩):::startend
    A3([|0⟩]):::startend --> B3(H):::process --> C3(RZ(θz)):::process --> D3(RX(θx)):::process --> E3(|ψC⟩):::startend
    A4([|0⟩]):::startend --> B4(H):::process --> C4(RZ(θz)):::process --> D4(RX(θx)):::process --> E4(RY(θy)):::process --> F4(|ψD⟩):::startend
    style A1,A2,A3,A4 fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
    style C1,D2,E3,F4 fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
    style B1,B2,B3,B4,C2,C3,D3,E4 fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px

其中,$\theta_x \sim U[-\pi, \pi]$,$\theta_y \sim U[-\pi, \pi]$,$\theta_z \sim U[-\pi, \pi]$,$U[-\pi, \pi]$表示在闭区间$[-\pi, \pi]$上的均匀分布。
- PQC A :初始量子比特状态为$|0⟩$(布洛赫球上的北极点),仅使用Hadamard门$H$将$|0⟩$变换为$(|0⟩ + |1⟩)/\sqrt{2}$,因此状态$|ψ_A⟩$只能是布洛赫球上的一个点。
- PQC B :同样从$|0⟩$开始,应用Hadamard门后,再绕z轴旋转一个从$[-\pi, \pi]$均匀分布中抽取的角度$\theta_z$。最终状态$|ψ_B⟩$可以是赤道上的任意点,且每个点的到达概率相等。
- PQC C :在PQC B的基础上增加了绕x轴旋转一个从$[-\pi, \pi]$均匀分布中抽取的角度$\theta_x$。通过绕两个正交轴的旋转,可以到达布洛赫球上的任意点,但由于$\theta_z$和$\theta_x$的均匀分布,状态$|ψ_C⟩$在布洛赫球上的点分布并不均匀,在$(|0⟩ + |1⟩)/\sqrt{2}$和$(|0⟩ - |1⟩)/\sqrt{2}$附近密度最高,在90°和270°子午线处密度最低。
- PQC D :在PQC C的基础上再增加绕y轴旋转一个从$[-\pi, \pi]$均匀分布中抽取的角度$\theta_y$。这一旋转使得之前聚集的点在布洛赫球上分布得更加均匀,从而使布洛赫球上的所有点都能以相等的概率到达。

因此,就探索希尔伯特空间的能力而言,这些PQC的表达能力层次为:$PQC D > PQC C > PQC B > PQC A$。

3.1 多层PQC

多层PQC(MPQC)由多个量子电路块组成,每个块中的量子门排列相同。输入的$n$个量子比特的量子态在计算基下初始化为$|0⟩^{\otimes n}$,总块数为$l$,第$i$个块表示为$U(\theta_i)$,其中参数数量与量子比特数成正比,$n$与生成数据的维度呈对数比例关系。电路的生成输出状态为:
$|\psi⟩ = \prod_{i = 1}^{l} U(\theta_i)|0⟩^{\otimes n}$

3.2 张量网络PQC

张量网络PQC(TPQC)将每个块视为局部张量,块的排列遵循特定的网络结构,如矩阵乘积态或树张量网络。第$i$个块$U(\theta_i)$由$M_i$个局部张量块组成,$M_i \propto n/2^i$,表示为$U(\theta_i) = \bigotimes_{j = 1}^{M_i} U(\theta_{i_j})$。许多这些张量块可能是单位算子,电路的生成状态为:
$|\psi⟩ = \prod_{i = 1}^{l} \bigotimes_{j = 1}^{M_i} U(\theta_{i_j})|0⟩^{\otimes n}$

3.3 表达能力的度量

主要问题是MPQC和TPQC是否比其经典对应物(如经典神经网络)具有更强的表达能力。模型的表达能力可以通过多种方式定义,例如模型表达变量之间不同关系的能力。深度神经网络是能够学习复杂数据结构的强大模型的典型例子,因此可以通过模型的复杂度来量化其能力,Vapnik - Chervonenkis维度是一种常用的复杂度度量方法。然而,对于研究量子和经典神经网络的能力,基于Fisher信息的有效维度可能是更好的度量方法。

纠缠熵是一种衡量表达能力的自然指标,它可以用于对量子和经典机器学习模型进行明确的排序。我们回顾统计力学中的吉布斯熵$S$和信息论中的香农熵$H$的定义:
$S := -k_B \sum_{i} p_i \log(p_i)$
$H := - \sum_{i} p_i \log_2(p_i)$
其中,$p_i$在吉布斯熵中是从平衡系综中选取微观状态$i$的概率,在香农熵中是从消息空间中选取消息$i$的概率。

这些熵的定义可以扩展到量子情况。在量子力学中,引入密度矩阵$\rho$来描述纯态和混合态:
$\rho := \sum_{i = 1}^{N} \sum_{j = 1}^{N} \rho_{ij} |i⟩⟨j|$
冯·诺伊曼熵$S$定义为:
$S(\rho) := -Tr(\rho \log(\rho))$
由于密度矩阵是厄米特矩阵,它可以对角化,存在一组基$|k⟩$使得:
$\rho = \sum_{k = 1}^{N} \rho_{kk} |k⟩⟨k| = \sum_{k = 1}^{N} p_k |k⟩⟨k|$
其中$\sum_{k = 1}^{N} p_k = 1$。算子$\rho \log(\rho)$的特征值为$(p_k \log(p_k)) {k = 1, \cdots, N}$,因此冯·诺伊曼熵可以表示为:
$S(\rho) = -Tr(\rho \log(\rho)) = - \sum
{k} p_k \log(p_k)$

对于正交量子态的混合,量子熵和经典熵是一致的。如果系统由两部分A和B组成,可以通过对密度矩阵在不感兴趣的希尔伯特子空间上取偏迹来定义约化密度矩阵。

以一个两量子比特系统处于$|\psi⟩ = \frac{1}{\sqrt{2}}(|01⟩ + |10⟩)$(四个最大纠缠贝尔态之一)为例,假设第一个量子比特为系统A,第二个量子比特为系统B。该状态对应的密度矩阵为:
$\rho_{AB} := |\psi⟩⟨\psi| = \frac{1}{2}(|01⟩⟨01| + |01⟩⟨10| + |10⟩⟨01| + |10⟩⟨10|)$
对其进行偏迹操作$Tr_B(\cdot)$,得到约化密度矩阵$\rho_A$:
$\rho_A := Tr_B(\rho_{AB}) = \frac{1}{2}(|0⟩⟨0| + |1⟩⟨1|) = \frac{1}{2} \begin{bmatrix} 1 & 0 \ 0 & 1 \end{bmatrix}$
这与描述$|0⟩$和$|1⟩$统计系综(混合态)的密度矩阵相同,即物理系统以相等概率处于$|0⟩$或$|1⟩$状态。

两部分系统AB的纠缠熵定义为:
$S(\rho_A) := -Tr(\rho_A \log(\rho_A)) = -Tr(\rho_B \log(\rho_B)) =: S(\rho_B)$
纠缠熵可以用于衡量模型的表达能力。TPQC、MPQC和经典神经网络与张量网络(如矩阵乘积态MPS)密切相关,关键问题是给定的量子系统是否可以由MPS有效表示。满足面积定律(其纠缠熵与边界面积成正比)的量子系统可以由MPS有效表示,而满足体积定律(其纠缠熵与体积成正比)的量子系统则不能。

3.4 PQC的表达能力

受限玻尔兹曼机(RBM)是一种基于随机二进制激活单元的神经网络,可视为参数化量子电路的经典对应物。RBM有两种类型:
- 浅层两层网络:可见层的激活单元与隐藏层的激活单元相连,同一层内的激活单元之间无连接。
- 深层多层堆叠RBM:第$k$个RBM的隐藏层作为第$k + 1$个RBM的可见层,这种堆叠的RBM(顺序训练)称为深度玻尔兹曼机(DBM)。

还可以对RBM层之间的连接施加进一步限制。短程RBM限制隐藏层激活单元的连接性,使其只能连接到可见层中彼此相邻的有限数量的激活单元(局部连接);长程RBM则允许隐藏层激活单元与可见层激活单元之间进行非局部连接。

研究表明,所有短程RBM状态的纠缠熵满足任意维度和二分几何的面积定律,而长程RBM状态可能表现出体积定律纠缠,因此长程RBM能够表示具有大纠缠的量子态。

不出所料,DBM比单个RBM具有更大的表达能力。使用纠缠熵作为表达能力的度量,研究证明了MPQC比DBM具有严格更大的表达能力。主要结果可以表述为以下定理:

定理10(表达能力定理) :具有$O(poly(n))$个单量子比特门和CNOT门的MPQC和TPQC,以及具有$O(poly(n))$个可训练参数的经典神经网络(其中$n$指量子比特数或可见单元数),其表达能力排序为:
$MPQC > DBM > 长程RBM > TPQC > 短程RBM$

该定理为建立基于PQC的QML模型的量子优势的实验工作提供了坚实的理论基础。近年来,PQC相较于经典模型更强的表达能力促使了许多此类模型的发展。例如,一种适用于NISQ设备的混合量子 - 经典方法,利用了量子纠缠的更强表达能力,数值模拟表明量子长短期记忆(QLSTM)模型比具有相似网络参数的经典LSTM模型学习速度更快,收敛更稳定。量子卷积神经网络(QCNN)由于其更大的表达能力,在测试准确性上优于经典CNN,其表达能力的来源是用基于变分量子电路的量子卷积核替代了经典卷积滤波器。

当只允许多项式数量的参数时,如QCBM这样的多层参数化量子电路比如RBM这样的经典模型具有严格更大的表达能力。对于表现出量子优越性的系统,经典模型除非使用指数级增长的资源,否则无法学习重现其统计特性。

参数化量子电路的强大力量(续)

4. 总结与展望

参数化量子电路(PQC)在量子机器学习领域展现出了巨大的潜力,其强大的性能主要源于两个关键特性:抗过拟合能力和强大的表达能力。

从抗过拟合方面来看,PQC可表示为高维保范酉矩阵,这使得量子神经网络具备强大的正则化特性。以澳大利亚信用审批(ACA)数据集为例,量子神经网络(QNN)在样本内和样本外数据集上都表现出了相似的性能,而经典的多层感知器(MLP)分类器只有在正则化参数取非常大的值时才能达到相近的正则化程度,且过大的参数会破坏网络的学习能力。这表明PQC在处理实际数据时,能够更好地避免过拟合问题,提高模型的泛化能力。

在表达能力方面,PQC可分为张量网络PQC(TPQC)和多层PQC(MPQC)。通过对单量子比特电路的示例分析,我们看到不同结构的PQC在探索希尔伯特空间的能力上存在差异,其表达能力具有明显的层次关系。进一步研究发现,MPQC和TPQC相较于经典神经网络具有更强的表达能力。基于纠缠熵的度量方法,研究得出了不同类型PQC和经典神经网络表达能力的排序:$MPQC > DBM > 长程RBM > TPQC > 短程RBM$。这一结果为量子机器学习模型的发展提供了理论支持,也解释了为什么近年来基于PQC的量子机器学习模型不断涌现。

以下是对PQC特性的总结表格:
| 特性 | 描述 | 示例说明 |
| — | — | — |
| 抗过拟合能力 | 可表示为高维保范酉矩阵,提供强大正则化特性 | ACA数据集上,QNN在样本内外性能相似,MLP需大正则化参数 |
| 表达能力 | 分为TPQC和MPQC,比经典模型更强 | 单量子比特电路示例展示表达能力层次,定理给出不同模型表达能力排序 |

在未来的研究中,我们可以期待在以下几个方面取得进展:
1. 算法优化 :进一步探索如何优化PQC的结构和参数,以提高其在不同任务中的性能。例如,研究如何调整MPQC和TPQC的块结构和参数数量,使其在处理复杂数据时更加高效。
2. 硬件适配 :随着量子硬件的不断发展,需要研究如何使PQC更好地适应NISQ设备的特点。例如,开发能够在噪声环境下稳定运行的PQC算法,减少硬件噪声对模型性能的影响。
3. 跨领域应用 :将PQC应用到更多的领域中,如金融、医疗、交通等。通过结合不同领域的数据特点和需求,开发出具有针对性的量子机器学习模型,为实际问题提供更有效的解决方案。

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px

    A(未来研究方向):::startend --> B(算法优化):::process
    A --> C(硬件适配):::process
    A --> D(跨领域应用):::process
    B --> B1(调整PQC结构和参数):::process
    C --> C1(开发抗噪声算法):::process
    D --> D1(金融应用):::process
    D --> D2(医疗应用):::process
    D --> D3(交通应用):::process

总之,参数化量子电路为量子机器学习带来了新的机遇和挑战。通过深入研究其特性和应用,我们有望在未来实现更强大、更高效的量子机器学习模型,推动量子技术在各个领域的广泛应用。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值