可膨胀图属性与自然属性测试解读
基础概念
- 图的距离 :两个$n$阶图$G$和$H$的绝对距离,是将$G$变成与$H$同构的图时需要添加或移除的边的数量。而它们的距离$dist(G, H)$是绝对距离经过$\binom{n}{2}^{-1}$归一化后的结果。
- 图属性 :图属性$\Pi$是一个由图构成的集合$\Pi = \bigcup_{n = 1}^{\infty} \Pi_n$,其中$\Pi_n$是$n$阶图的集合,且该集合在图同构下封闭。如果一个图是集合$\Pi$的元素,则称该图满足属性$\Pi$;若一个$n$阶图$G$与$\Pi_n$中每个图的距离至少为$\varepsilon$,则称$G$与满足属性$\Pi$的图$\varepsilon$-远。
-
属性测试
:
- 传统定义 :对于图属性$\Pi$的属性测试,是一个概率预言机,给定值$(n, \varepsilon)$以及对$n$阶图$G$的预言机访问权限,它会进行一定数量的边查询(如“顶点$u$和$v$之间是否有边?”),并以至少$2/3$的概率区分$G$是否属于$\Pi$或与$\Pi$ $\varepsilon$-远。查询的数量和选择以及算法的其他部分通常可能依赖于$n$。
- 替代定义 :这是一个概率预言机,给定值$(n, \varepsilon)$以及对$n$阶图$G$的访问权限,通过一个预言机进行两种类型的请求:一是从$G$的剩余顶点中均匀采样一个额外顶点,二是在采样顶点诱导的子图内进行边查询(如“第$i$个和第$j$个采样顶点之间是否有边?”)。该机器向预言机发出一系列请求,并以至少$2/3$的概率区分$G$是否属于$\Pi$或与$\Pi$ $\varepsilon$-远。
属性测试的特征
- 单边错误测试 :如果一个属性测试以概率$1$接受$\Pi$中的所有图,则称该测试为单边(或具有单边错误)测试。
- 规范测试 :对于属性$\Pi$的测试,如果存在函数$s : N × (0, 1) → N$和属性序列${\Pi(i)}_{i = 1}^{\infty}$,该测试的操作如下:输入$n$和对$n$顶点图$G$的预言机访问权限,测试均匀采样$G$的$s(n, \varepsilon)$个不同顶点的集合,查询整个相应的诱导子图,当且仅当该子图属于$\Pi(n)$时接受。如果顶点数少于$s(n, \varepsilon)$,则查询整个图,若图属于$\Pi$则接受。
- 自然测试 :一个图属性测试被称为自然测试,如果其查询复杂度与被测试图的大小无关,并且在输入$(n, \varepsilon)$和对$n$阶图的预言机访问权限时,测试的输出仅基于它收到的预言机答案序列(可能使用更多随机比特,但随机比特的数量也与$n$无关)。
图属性的特征
-
图的膨胀
:
- 平衡膨胀 :图$G’ = (V’, E’)$是图$G = (V, E)$的(平衡)膨胀,如果$V’$可以划分为$|V|$个顶点簇,每个簇的大小最多相差$1$,每个簇对应$V$中的一个顶点,并且$E’$中这些簇之间的边对应于$E$中的边。
- 精确平衡膨胀 :如果$G’$是$G$的膨胀,并且$V’$中对应于$G$顶点的簇大小完全相同(特别地,$|V|$能整除$|V’|$),则称$G’$是精确平衡膨胀。
- 可膨胀属性 :属性$\Pi$被称为可膨胀的,如果它在膨胀操作下封闭,即如果$G$满足$\Pi$,则$G$的任何膨胀也满足$\Pi$。
- $(s, \delta)$ - 可膨胀属性 :一个图属性$\Pi$被称为$(s, \delta)$ - 可膨胀的,如果对于任何满足$\Pi$且阶数至少为$s$的图$G$,$G$的所有膨胀都与满足$\Pi$的图$\delta$-近。如果对于任何满足$\Pi$且阶数至少为$s$的图$G$,$G$膨胀到任何固定阶数(从所有可能的膨胀中均匀采样)的膨胀图与$\Pi$的期望距离小于$\delta$,则称$\Pi$是平均$(s, \delta)$ - 可膨胀的。
-
图的遗传性
:
- 遗传性 :一个图属性如果在取诱导子图操作下封闭,则称该属性是遗传的。如果它在取阶数不小于$n_0$的诱导子图操作下封闭,则称该属性是到阶数$n_0$的遗传属性。
- $(s, \delta)$ - 遗传属性 :属性$\Pi$被称为$(s, \delta)$ - 遗传的,如果对于$\Pi$中的每个图,其所有阶数至少为$s$的诱导子图都与$\Pi$ $\delta$-近。如果对于$\Pi$中的每个图,从任何固定阶数$s’ \geq s$均匀采样的子图与$\Pi$的期望距离小于$\delta$,则称$\Pi$是平均$(s, \delta)$ - 遗传的。
固定阶子图分布
- 子图分布 :给定图$G$,考虑由均匀采样的$s$个顶点诱导的图,其分布记为$D_s^G$,即$G$的$s$阶子图分布。$D_s^G(G’)$是$G$中$s$阶子图$G’$的相对频率。
- 分布距离 :两个$s$阶图分布$D$和$D’$之间的距离$dist(D, D’)$是它们之间的变差距离,即$dist(D, D’) = \frac{1}{2} \sum_{G \in G_s} |D(G) - D’(G)|$。
主要结果
- 定理1 :如果一个遗传的、可膨胀的图属性有一个无论输入图大小如何都进行$q(\varepsilon)$次查询的测试,那么它有一个强规范测试,即一个自然测试,进行$O(q(\varepsilon)^4)$次查询。
- 定理2 :如果一个图属性$\Pi$有一个自然(不一定规范)的测试,涉及$s(\varepsilon)$个不同顶点的查询,那么对于每个$\varepsilon’ > \varepsilon$,$\Pi$是平均$(s_h, \varepsilon’)$ - 遗传的和平均$(s_i, \varepsilon’)$ - 可膨胀的,其中$s_h = O(s \cdot \log(\frac{1}{\varepsilon’ - \varepsilon}))$,$s_i = O(s^2 \cdot (\varepsilon’ - \varepsilon)^{-1} \log^2(\frac{1}{\varepsilon’ - \varepsilon}))$。
- 推论1 :如果一个遗传可膨胀属性有一个进行$q(\varepsilon)$次查询的测试,那么它有一个完美规范测试,查询子图的阶数为$poly(q(\varepsilon))$。
- 推论2 :对于无三角形属性的任何$\varepsilon$ - 测试(自然或非自然,单边或双边错误)的查询复杂度至少为$(c / \varepsilon)^{c \cdot \log(c / \varepsilon)}$,其中$c$是某个全局常数。
算法与证明
- 元测试(算法1) :
算法1. 对属性Π的元测试
1: 均匀查询一个阶数为s1 = 12 * (s0^2) = 12 * (31 * s(ε)^2)的子图Gsample。
2: 如果Gsample中至少1/6的s0阶子图G'使得(规范)s0 - 测试通过样本G'接受G,则接受。否则拒绝。
- **引理4**:算法1是属性$\Pi$的有效测试,失败概率至多为$1/6$。
- 修改后的元测试(算法2) :
算法2. 修改后的属性Π的元测试
1: 均匀查询一个阶数为s1 = 12 * (s0^2) = 12 * (31 * s(ε)^2)的子图Gsample。
2: 如果Gsample不在Π中,拒绝。
3: 如果Gsample中至少1/6的s0阶子图G'使得s0 - 测试通过样本G'接受G,则接受。否则拒绝。
- **引理5**:算法2是属性$\Pi$的有效测试。
- **引理6**:如果存在某个输入图阶数$n$使得算法2通过样本$H$接受,那么对于任何输入图阶数$n' \geq s1$,算法2都不会通过样本$H$拒绝。
流程图
graph TD;
A[开始] --> B[均匀查询s1阶子图Gsample];
B --> C{Gsample是否在Π中};
C -- 否 --> D[拒绝];
C -- 是 --> E{至少1/6的s0阶子图使s0 - 测试接受G?};
E -- 是 --> F[接受];
E -- 否 --> D;
总结
本文围绕图属性的测试展开,介绍了图的距离、属性测试、图属性的特征(可膨胀性和遗传性)以及固定阶子图分布等基础概念。通过定理和推论建立了不同类型图属性测试之间的联系,如具有一定查询次数的测试可转化为强规范测试或完美规范测试。还给出了具体的算法(元测试和修改后的元测试)及相关引理证明其有效性,为图属性测试提供了理论和实践方法。
可膨胀图属性与自然属性测试解读
定理1证明思路深入剖析
在证明定理1时,我们的核心目标是将一个具有特定查询次数的测试转化为强规范测试。首先,由于属性$\Pi$有一个涉及最多$s(\varepsilon)$个顶点的查询测试,根据相关定理可知它存在一个规范测试,该规范测试会查询一个阶数最多为$9s$的均匀采样子图。为了降低错误概率,我们将查询子图的阶数增加到$s_0 = 31s$,使得规范测试的错误概率最多为$\frac{1}{36}$。
接下来,我们构建了一个“元测试”(算法1),它的主要作用是通过估计子图分布来判断是否接受输入图。具体操作是均匀查询一个阶数为$s_1 = 12 \binom{s_0}{2} = 12 \binom{31s(\varepsilon)}{2}$的子图$G_{sample}$,然后检查其中至少$\frac{1}{6}$的$s_0$阶子图$G’$是否能让规范的$s_0$ - 测试通过样本$G’$接受输入图$G$。
引理4证明了算法1是属性$\Pi$的有效测试,失败概率至多为$\frac{1}{6}$。证明过程中,我们假设输入图$G$要么满足$\Pi$,要么与满足$\Pi$的图$\varepsilon$ - 远。对于$G_{sample}$中的每个$s_0$阶子图$G’$,我们用$X_{G’}$表示$s_0$ - 测试出错的指示变量。由于每个$s_0$阶子图都是从输入图中均匀采样的,所以$E[X_{G’}]$就是$s_0$ - 测试出错的概率,最多为$\frac{1}{36}$。那么$G_{sample}$中$s_0$阶子图导致$s_0$ - 测试出错的期望比例也最多为$\frac{1}{36}$。根据马尔可夫不等式,当至少$\frac{1}{6}$的子图导致$s_0$ - 测试出错时,这种情况发生的概率至多为$\frac{1}{6}$。
然后,我们对算法1进行修改得到算法2,增加了一个检查步骤:如果$G_{sample}$不在属性$\Pi$中,则直接拒绝。引理5证明了算法2也是属性$\Pi$的有效测试。因为增加的检查步骤只会增加拒绝输入图的概率,所以对于与$\Pi$ $\varepsilon$ - 远的图,算法2仍然会以至少$\frac{5}{6} \geq \frac{2}{3}$的概率拒绝。对于满足$\Pi$的图,由于$\Pi$是平均$(s_1, \frac{1}{6} \binom{s_1}{2}^{-1})$ - 遗传的,所以$G$中阶数为$s_1$且不在$\Pi$中的子图比例至多为$\frac{1}{6}$。再结合算法1中最多$\frac{1}{6}$的$s_1$阶子图会导致拒绝的情况,通过并集边界可知,修改后的元测试拒绝满足$\Pi$的图的概率小于$\frac{1}{3}$。
最后,引理6证明了算法2的自然性。假设存在某个输入图阶数$n$使得算法2通过样本$H$接受,若存在$n’ \geq s_1$使得算法2通过样本$H$拒绝,我们会发现这会导致原测试不健全。通过考虑$H$的随机膨胀$H’$,利用$\Pi$的平均$(s_1, \frac{1}{12} \binom{s_0}{2}^{-1})$ - 可膨胀性和相关引理,我们可以推出矛盾。
定理2的实际意义
定理2表明,如果一个图属性$\Pi$有一个自然(不一定规范)的测试,涉及$s(\varepsilon)$个不同顶点的查询,那么对于每个$\varepsilon’ > \varepsilon$,$\Pi$具有一定的平均遗传性和平均可膨胀性。具体来说,$\Pi$是平均$(s_h, \varepsilon’)$ - 遗传的和平均$(s_i, \varepsilon’)$ - 可膨胀的,其中$s_h = O(s \cdot \log(\frac{1}{\varepsilon’ - \varepsilon}))$,$s_i = O(s^2 \cdot (\varepsilon’ - \varepsilon)^{-1} \log^2(\frac{1}{\varepsilon’ - \varepsilon}))$。
这个定理的实际意义在于,它为我们提供了一种从测试的查询复杂度来推断图属性的遗传性和可膨胀性的方法。在实际应用中,当我们知道一个图属性存在一个具有特定查询复杂度的自然测试时,就可以根据定理2的结论来了解该属性在子图和膨胀操作下的稳定性。例如,在设计图算法时,如果我们希望处理的图属性具有较好的遗传性和可膨胀性,就可以通过检查是否存在满足一定查询复杂度的自然测试来初步判断。
推论的应用场景
- 推论1 :如果一个遗传可膨胀属性有一个进行$q(\varepsilon)$次查询的测试,那么它有一个完美规范测试,查询子图的阶数为$poly(q(\varepsilon))$。这个推论的应用场景在于,当我们面对一个遗传可膨胀属性的测试问题时,如果已经有了一个具有一定查询次数的测试,就可以利用推论1将其转化为完美规范测试。完美规范测试的优势在于其结构更加清晰,便于分析和实现。例如,在图数据库的查询优化中,对于具有遗传可膨胀属性的图数据,我们可以利用这个推论将复杂的测试转化为更简单的完美规范测试,从而提高查询效率。
- 推论2 :对于无三角形属性的任何$\varepsilon$ - 测试(自然或非自然,单边或双边错误)的查询复杂度至少为$(c / \varepsilon)^{c \cdot \log(c / \varepsilon)}$,其中$c$是某个全局常数。这个推论为我们提供了无三角形属性测试的查询复杂度下界。在实际应用中,当我们设计无三角形属性的测试算法时,可以根据这个下界来评估算法的性能。如果一个算法的查询复杂度接近或低于这个下界,那么它可能是一个比较高效的算法;反之,如果远高于这个下界,则需要考虑对算法进行优化。
不同概念之间的关系表格
| 概念 | 与其他概念的关系 |
|---|---|
| 图的距离 | 是属性测试中判断图与属性接近程度的基础,影响图是否满足属性以及是否$\varepsilon$ - 远的判断 |
| 属性测试 | 包括规范测试、自然测试等不同类型,规范测试的存在是证明定理1的关键,自然测试与图属性的遗传性和可膨胀性通过定理2建立联系 |
| 可膨胀属性 | 与图的膨胀操作相关,可膨胀属性在膨胀操作下封闭,影响属性测试的转化和图的子图分布 |
| 遗传属性 | 在取诱导子图操作下封闭,遗传属性与属性测试的类型(如完美规范测试)通过推论1建立联系 |
| 固定阶子图分布 | 与属性测试的结果判断相关,元测试通过估计子图分布来决定是否接受输入图 |
未来研究方向展望
- 算法优化 :虽然本文给出了一些有效的算法(如算法1和算法2),但这些算法的查询复杂度可能仍然较高。未来可以研究如何进一步优化这些算法,降低查询复杂度,提高算法的效率。例如,可以考虑采用更智能的采样策略或更高效的子图检查方法。
- 属性扩展 :本文主要研究了可膨胀和遗传属性,但图的属性还有很多其他类型。未来可以探索其他属性的测试方法,以及这些属性与可膨胀和遗传属性之间的关系,从而建立更全面的图属性测试理论。
- 应用拓展 :图属性测试在很多领域都有应用,如社交网络分析、生物信息学等。未来可以将本文的理论和算法应用到更多实际场景中,解决实际问题,并在应用过程中不断完善和改进图属性测试的方法。
总结
本文全面介绍了图属性测试的相关知识,包括基础概念、属性测试的特征、图属性的特征、固定阶子图分布等。通过定理和推论建立了不同类型图属性测试之间的联系,给出了具体的算法和证明,为图属性测试提供了丰富的理论和实践方法。同时,我们深入剖析了定理的证明思路,探讨了推论的应用场景,还对未来的研究方向进行了展望。这些内容对于理解和应用图属性测试具有重要的指导意义,希望能为相关领域的研究和实践提供有价值的参考。
超级会员免费看
974

被折叠的 条评论
为什么被折叠?



