68、稠密局部可测试码无法同时具备恒定速率和距离

最新推荐文章于 2025-11-10 15:15:27 发布

seed

最新推荐文章于 2025-11-10 15:15:27 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：近似与随机算法前沿文章标签：局部可测试码稠密测试器恒定速率

本文链接：https://blog.youkuaiyun.com/seed/article/details/153600503

近似与随机算法前沿专栏收录该内容

90 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

稠密局部可测试码无法同时具备恒定速率和距离

1. 引言

纠错码是一个集合 $C \subset \Sigma^n$，其速率为 $\log |C| / n$，相对距离是两个不同码字 $x, y \in C$ 之间的最小汉明距离除以 $n$，这里我们只考虑距离为 $\Omega(1)$ 的码。

如果一个码有一个测试器，该测试器是一个能对接收字 $x$ 进行预言访问的随机算法，它最多读取 $x$ 中的 $q$ 个符号，并基于此局部视图判断 $x$ 是否属于 $C$，则称该码是 $q$ 查询局部可测试的。测试器应能以概率 1 接受码字，并以显著概率拒绝与码在汉明距离上相差较大的字。若测试器具有参数 $(\tau, \varepsilon)$，则对于任意 $x \in \Sigma^n$，当 $dist(x, C) \geq \tau$ 时，有 $Pr[Tester\ rejects\ x] \geq \varepsilon$。

局部可测试码（LTCs）近年来受到了广泛研究。先验地，LTCs 的存在性并非显而易见。例如，哈达玛码是 LTCs 的一个著名例子，但它的速率非常低（$\log n / n$），效率不高。自 Goldreich 和 Sudan 的工作以来，已经给出了几种其他有效的 LTCs 构造。目前已知的 LTCs 最佳速率为 $1 / \log^{O(1)} n$，且这些码具有 3 查询测试器。未能构造出具有恒定速率、恒定距离且可通过恒定数量查询进行测试的 LTCs，引出了该领域的一个主要开放问题：是否存在具有 c3 属性的 LTCs，即恒定速率、恒定距离且可通过恒定数量查询进行测试的 LTCs（这类 LTCs 在文献中有时被称为“渐近良好”）。两查询且具有“最后一个固定”（LOF）测试的情况已在相关研究中有所探讨，但 $q \geq 3$ 的情况更有趣且仍未完全解决。

2. 稠密测试器

在这项工作中，我们在 c3 问题的一个变体上取得了进展。我们证明了具有所谓稠密测试器的 LTCs 不能是 c3。

测试器的密度大致是每个坐标参与的不同局部视图的平均数量。更正式地，每个测试器会产生一个约束超图 $H = ([n], E)$，其顶点是码字的 $n$ 个坐标，超边对应于测试器的所有可能局部视图。每个超边 $h \in E$ 还与一个约束相关联，即一个布尔函数 $f_h : \Sigma^q \to {0, 1}$，它决定了测试器在该局部视图上是接受还是拒绝。对于给定的字符串 $x \in \Sigma^n$，我们用 $x_h$ 表示通过将 $x$ 限制到超边 $h$ 中的坐标而得到的子字符串。$f_h(x_h)$ 的值决定了字符串 $x$ 是否违反约束。

定义 1（测试超图，密度） ：设 $C \subseteq \Sigma^n$ 是一个码，$q \in N$ 且 $\varepsilon > 0$。设 $H$ 是一个约束超图，其超边的大小至多为 $q$。若 $H$ 满足以下条件，则它是 $C$ 的一个 $(\tau, \epsilon)$ - 测试超图：
- 对于每个 $x \in C$ 和每个 $h \in E$，$f_h(x_h) = 1$；
- 对于每个 $x \in \Sigma^n$，当 $dist(x, C) \geq \tau$ 时，有 $Pr_{h \in E}[f_h(x_h) = 0] \geq \epsilon$，其中 $dist(x, y)$ 表示相对汉明距离，即 $x$ 与 $y$ 不同的坐标的比例。

最后，$H$ 的密度就是平均度 $|E| / n$。

超图描述了一个随机均匀选择一个超边的测试器。注意，我们不允许超边有权重，这一点将在后面进一步讨论。

Goldreich 和 Sudan 证明了每个密度为 $\Omega(1)$ 的测试器可以通过以适当概率随机消除每个超边而变成一个密度为 $O(1)$ 的“稀疏”测试器。这意味着一个码可以同时拥有稠密和稀疏测试器。因此，我们定义一个码的密度 $\geq d$ 当且仅当它有一个密度为 $d$ 的测试器。需要强调的是，在这项工作中，密度是码的一个属性，而不是测试器的属性。我们证明了某些稠密测试器的存在会限制码的速率。

我们称一个 LTC 是稀疏的，如果它没有密度为 $\omega(1)$ 的测试器。目前我们还不知道有任何稀疏的 LTC。因此，我们的工作为已知 LTCs 所达到的有界速率提供了一些解释。

实际上，人们不禁会想密度是否是 LTCs 的一个固有属性。这种观点的直觉是，为了实现局部可测试性，码似乎需要在局部测试之间有一定的冗余，而这种冗余可能会转化为密度。如果能证明每个 LTC 都是稠密的，结合我们的工作，就可以排除 c3 - LTCs 的存在。

为了支持这一方向，第二作者及其合作者的工作表明，每个线性 LTC（即使速率有界）都必须有一定的非平凡密度：他们证明了没有线性 LTC 可以仅通过构成对偶码基的测试进行测试。此外，任何测试器都必须有显著更多的测试，即每个这样的 LTC 的测试器都需要一定的恒定密度。

3. 我们的结果

我们对具有稠密测试器的 LTCs 的速率进行了限制。我们只考虑约束具有“最后一个固定”（LOF）属性的测试器，即任何 $q - 1$ 个符号的值决定最后一个符号的值。例如，任何线性约束都具有这种属性。

我们针对 $q = 3$ 和 $q > 3$ 这两种情况给出了不同的界限，其中 $q$ 表示查询的数量。
- 定理 1 ：设 $C \subseteq {0, 1}^n$ 是一个 3 查询 LTC，距离为 $\delta$，$H$ 是一个具有密度 $d$ 和 LOF 约束的 $(\delta/3, \varepsilon)$ - 测试超图。那么，$C$ 的速率至多为 $O(1/d^{1/2})$（其中 $O$ 符号隐藏了对 $\delta$ 和 $\varepsilon$ 的依赖）。
- 定理 2 ：设 $C \subseteq {0, 1}^n$ 是一个 $q$ 查询 LTC，距离为 $\delta$，$H$ 是一个具有密度 $\Delta$（其中 $\Delta = dn^{q - 2}$）和 LOF 约束的 $(\delta/2, \varepsilon)$ - 测试超图。那么，$C$ 的速率至多为 $O(1/d)$。

这些结果在测试器具有以下两个属性时成立：
- （无权重）每个 $q$ 元查询组出现的概率相同。
- （“最后一个固定”）在测试器的每个 $q$ 查询“测试”中，任何 $q - 1$ 个符号的值决定最后一个符号的值。

此外，我们还证明了对结果进行一些自然的定量改进将解决一般的 c3 问题，即对于非稠密 LTCs 也是如此：
- 在这项工作中，我们只处理无权重的测试器，即超图没有权重。一般来说，测试器可以对不同的超边赋予不同的权重。这种限制不能完全消除，但可能可以通过更精细的密度定义来解决。
- 在定理 1 中，我们证明了 $\rho \leq O(1/d^{0.5})$。我们表明，将 0.5 指数进行任何改进（例如提高到 $0.5 + \varepsilon$）将再次排除 c3 - LTCs 的存在。
- 在定理 2 中，我们仅在密度非常高（即 $\omega(n^{q - 2})$）时对速率进行了限制。我们表明，对密度为 $O(n^{q - 3})$ 的情况进行任何限制将再次排除 c3 - LTCs 的存在。似乎我们的上界 $\omega(n^{q - 2})$ 可以改进为 $\omega(n^{q - 3})$，可能通过与定理 1 证明中类似的论证。

4. 中等稠密 3 查询 LTCs 不能是 c3

为了证明定理 1，我们考虑超图 $H = (V, E(H))$，其顶点是码的坐标，超边对应于测试器的不同测试。假设 $H$ 有 $dn$ 个不同的超边。

我们给出一个算法来为码字的坐标赋值，并证明一个码字可以用 $k = O(\frac{n}{d^{1/2}})$ 位来确定。
对于 $H$ 的顶点 $V$ 的一个划分 $(A, B)$，我们定义图 $G_B = (A, E)$，其中 $E = {{a_1, a_2} \subset A | \exists b \in B, {a_1, a_2, b} \in E(H)}$。

定义 2 ：两个顶点 $v, v’$ 是等价的，如果对于所有的 $w \in C$，有 $w_v = w_{v’}$。显然，这是一个等价关系。一个顶点的重数为 $m$，如果其等价类中恰好有 $m$ 个顶点。

设 $V^*$ 是重数至多为 $\beta d^{1/2}$ 的顶点集合，其中 $\beta = \alpha/16$，$\alpha = 3\varepsilon/\delta$。

以下是算法步骤：
1. 初始化 ：
- 令 $\alpha = 3\varepsilon/\delta$ 并固定 $\beta = \alpha/16$。
- 让 $B$ 包含所有重数至少为 $\beta d^{1/2}$ 的顶点。
- 让 $F$ 包含这些重数类的每个代表。
- 让 $B$ 还包含所有对于所有码字值都相同的顶点。
2. 清理步骤 ：重复以下操作直到 $B$ 保持不变：
- 将出现在有两个端点在 $B$ 中的超边中的任何顶点添加到 $B$ 中。
- 将 $G_B$ 中大小至少为 $\beta d^{1/2}$ 的连通分量中的所有顶点添加到 $B$ 中，并将该连通分量中的任意一个元素添加到 $F$ 中。
- 将 $B$ 中具有等价顶点的任何顶点添加到 $B$ 中。
3. S 步骤 ：$B$ 之外的每个顶点以概率 $1/d^{1/2}$ 掷一个有偏硬币并进入 $S$。令 $B \leftarrow B \cup S$ 并设置 $F \leftarrow F \cup S$。
4. 终止条件 ：如果存在至少两个不同的 $x, y \in C$ 使得 $x_B = y_B$，则转到步骤 1，否则停止。

引理 1 ：如果算法停止，则码最多有 $2^{|F|}$ 个码字。
证明：在每一步中，设置 $F$ 中顶点的值已经完全确定了 $B$ 中所有顶点的值（在任何有效码字中）。一旦算法停止，码字在 $B$ 上的值就决定了整个码字。因此，最多有 $2^{|F|}$ 个码字。

设 $B_t$ 表示第 $t$ 次清理步骤结束时的集合 $B$。为了分析算法停止时 $F$ 的期望大小，我们分析尚未在 $B$ 中的顶点在下一次迭代中进入 $B$ 的概率。对于顶点 $v$，这由其邻域结构决定。令 $E_v = {{u, u’} | u, u’ \in V^*, 且 {u, u’, v} \in E(H)}$，并记 $A = {v | |E_v| \geq \alpha d}$。

引理 2 ：对于 $t \geq 2$，如果 $v \in A$，则 $Pr_S [v \in B_t] \geq \frac{1}{2}$。
引理 3 ：如果算法在第 $t$ 步之前没有停止，且 $|A_{t - 1}| < \frac{\delta}{2}n$，则算法将在第 $t$ 步结束时停止。

在证明这两个引理之前，我们先看看它们如何推出定理 1。
定理 1 的证明 ：对于每个 $t \geq 2$，引理表明对于每个 $v \in A_{t - 1}$，一半的 $S$ 会将其放入 $B_t$。我们可以忽略大小超过 $2 \cdot \frac{n}{d^{1/2}}$ 的 $S$ 集合，因为它们的比例可以忽略不计。通过期望的线性性，我们期望至少一半的 $A_{t - 1}$ 进入 $B_t$。特别地，固定某个 $S_{t - 1}$ 为达到（或超过）期望的 $S$。只要 $|A_{t - 1}| \geq \frac{\delta n}{2}$，我们有 $|B_t| \geq |B_{t - 1}| + |A_{t - 1}| / 2 \geq |B_{t - 1}| + \frac{\delta n}{4}$。由于 $|B_t| \leq n$，在 $\ell \leq \frac{4}{\delta}$ 次迭代后，当算法使用 $S_1, \ldots, S_{\ell}$ 运行时，我们必须有 $|A_{\ell}| < \frac{\delta n}{2}$。这意味着引理 3 的条件成立，算法停止。

$F$ 集合有多大呢？在每个 $S$ 步骤中，$F$ 集合增长了 $|S| \leq \frac{2n}{d^{1/2}}$。在 $S$ 步骤中添加到 $F$ 中的顶点总数为 $O(\ell \cdot \frac{n}{d^{1/2}})$。其他顶点在初始化步骤和步骤 1b 中添加到 $F$ 中。在这两个步骤中，每 $\beta d^{1/2}$ 个添加到 $B$ 中的 $B$ 之外的顶点会有一个顶点添加到 $F$ 中。由于顶点不会离开 $B$，这种类型的 $F$ 顶点总数为 $\frac{n}{\beta d^{1/2}}$。

综上所述，以非零概率，最终的 $F$ 集合大小为 $O(\frac{1}{d^{1/2}}) \cdot n$。结合引理 1，这给出了码字数量的所需界限。

下面是算法流程的 mermaid 图：

graph TD;
    A[初始化] --> B[清理步骤];
    B --> C{S 是否使算法停止};
    C -- 否 --> B;
    C -- 是 --> D[结束];
    B --> E[S 步骤];
    E --> C;

5. 引理 2 的证明

我们固定某个 $v \in A$。如果 $v \in B_{t - 1}$，则由于 $B_t \supseteq B_{t - 1}$，我们就完成了。所以假设 $v \notin B_{t - 1}$，并分析在第 $t - 1$ 次迭代中随机选择集合 $S$ 时 $v$ 进入 $B_t$ 的概率。这由 $E_v$ 的边所诱导的图结构决定。令这个图为 $G = (U, E_v)$，其中 $U$ 只包含至少与 $E_v$ 中的一条边接触的顶点。我们不知道 $U$ 中有多少个顶点，但我们知道 $|E_v| \geq \alpha d$。

我们首先观察到 $U$ 中 $u$ 的所有邻居必须在同一个等价类中。因为每个边 ${v, u, u_i}$ 都是 $H$ 中的超边，且 $u_i$ 的值由 $v$ 和 $u$ 的值决定。因此，$G$ 中任何顶点 $u \in U$ 的度至多为 $\beta d^{1/2}$，因为重数更高的顶点不在 $V^*$ 中，因此不参与 $E_v$ 的边。

对于每个 $u \in U$，令 $I_u$ 是一个指示变量，当且仅当 $u$ 的某个邻居进入 $S$ 时取值为 1。如果发生这种情况，则有以下两种情况：
- $u \in S$：这意味着 $v$ 有一个超边，其另外两个端点在 $B_t$ 中，并且 $v$ 本身将在步骤 1a 中进入 $B_t$。
- $u \notin S$：这意味着图 $G_{B_t}$ 将有一条边 ${v, u}$。

如果对于任何 $u \in U$ 第一种情况发生，我们就完成了，因为 $v$ 在步骤 1a 中进入 $B_t$。否则，随机变量 $\sum_{u \in U} I_u$ 计算了在 $G_{B_t}$ 中将出现多少条不同的边 ${v, u}$。如果这个数字超过 $\beta d^{1/2}$，则 $v$ 将在步骤 1b 中进入 $B_t$。

很容易计算 $I$ 的期望值。首先，观察到 $E[I_u] = 1 - (1 - \frac{1}{d^{1/2}})^{deg(u)}$，由于 $u$ 的度至多为 $\beta d^{1/2}$，这个值在 $\frac{deg(u)}{2d^{1/2}}$ 和 $\frac{deg(u)}{d^{1/2}}$ 之间。通过期望的线性性，$E[I] = \sum_{u} E[I_u] \geq \sum_{u} \frac{deg(u)}{2d^{1/2}} = |E_v| d^{-1/2} \geq \alpha d^{1/2}$。

我们将证明 $I$ 有很大概率达到接近期望值的值（特别是至少为 $\frac{\alpha d^{1/2}}{2} \geq \beta d^{1/2}$），这将使 $v$ 在步骤 1b 中进入 $B_t$。变量 $I_u$ 不是相互独立的，但我们可以通过界定 $I$ 的方差并应用切比雪夫不等式来显示足够的集中性。

稠密局部可测试码无法同时具备恒定速率和距离

6. 引理 3 的证明

假设算法在第 $t$ 步之前没有停止，且 $|A_{t - 1}| < \frac{\delta}{2}n$。

我们知道，$A_{t - 1}$ 是在第 $t - 1$ 步时，不在 $B_{t - 1}$ 中且满足特定条件（在 $A$ 中或者通过 $G_{B_{t - 1}}$ 中的路径与 $A$ 中的某个顶点相连）的顶点集合。

由于 $|A_{t - 1}| < \frac{\delta}{2}n$，这意味着剩余不在 $B_{t - 1}$ 中的顶点数量相对较少。并且根据前面的分析，这些顶点进入 $B_t$ 的概率也相对较低。

在第 $t$ 步的操作中，无论是清理步骤还是 $S$ 步骤，都不会使大量不在 $B_{t - 1}$ 中的顶点进入 $B_t$。因为清理步骤主要是基于已有在 $B_{t - 1}$ 中的顶点和超边关系来添加顶点，而 $S$ 步骤中顶点进入 $S$ 的概率是 $1/d^{1/2}$，且 $A_{t - 1}$ 规模较小。

所以，在第 $t$ 步结束后，不会再出现有两个不同的码字 $x, y$ 使得 $x_{B_t} = y_{B_t}$ 的情况。也就是说，算法满足停止条件，将在第 $t$ 步结束时停止。

7. 结果的扩展与改进

7.1 扩展

在当前的初步版本中，我们假设字母表是布尔的，但这些结果很容易扩展到任何有限字母表 $\Sigma$。因为整个分析过程主要是基于码的结构、测试器的性质以及一些概率和图论的方法，这些方法并不依赖于字母表的具体取值，只要字母表是有限的，就可以将现有的证明思路和结论进行推广。

另外，有可能去掉对约束的“最后一个固定”（LOF）限制，但这还需要进一步的研究和推导。如果能够去掉这个限制，那么我们的结果适用范围将更加广泛，能够涵盖更多类型的局部可测试码。

7.2 改进

我们发现，对结果进行一些自然的改进将有助于解决更一般的 c3 问题。
- 非加权测试器的改进 ：在这项工作中，我们只处理非加权测试器，即超图的超边没有权重。但在实际情况中，测试器可以对不同的超边赋予不同的权重，这在组合多种类型的测试时是很自然的。虽然这种限制不能完全消除，但可以通过更精细的密度定义来解决。例如，可以考虑根据超边的权重对密度进行加权平均，重新定义一个更合适的密度概念，使得我们的结果能够适用于加权测试器的情况。
- 定理 1 指数的改进 ：在定理 1 中，我们证明了码的速率 $\rho \leq O(1/d^{0.5})$。如果能够将 0.5 指数进行改进，比如提高到 $0.5 + \varepsilon$（其中 $\varepsilon > 0$），那么就可以再次排除 c3 - LTCs 的存在。这是因为这样的改进会进一步限制具有稠密测试器的码的速率，使得恒定速率和恒定距离的局部可测试码更难以存在。
- 定理 2 密度范围的改进 ：在定理 2 中，我们仅在密度非常高（即 $\omega(n^{q - 2})$）时对速率进行了限制。如果能够对密度为 $O(n^{q - 3})$ 的情况进行限制，也将排除 c3 - LTCs 的存在。而且似乎我们的上界 $\omega(n^{q - 2})$ 可以改进为 $\omega(n^{q - 3})$，可能通过与定理 1 证明中类似的论证方法，进一步挖掘码的结构和测试器的性质之间的关系。

以下是改进方向的表格总结：
| 改进方向 | 当前情况 | 改进目标 | 意义 |
| ---- | ---- | ---- | ---- |
| 非加权测试器 | 只处理非加权测试器 | 考虑加权测试器 | 扩大结果适用范围 |
| 定理 1 指数 | $\rho \leq O(1/d^{0.5})$ | 提高指数到 $0.5 + \varepsilon$ | 进一步限制码的速率，排除 c3 - LTCs |
| 定理 2 密度范围 | 限制 $\omega(n^{q - 2})$ 密度时的速率 | 限制 $O(n^{q - 3})$ 密度时的速率 | 扩大密度适用范围，排除 c3 - LTCs |

8. 相关工作与总结

在我们研究的过程中，了解到 Eli Ben - Sasson 和 Michael Viderman 也在研究密度和速率之间的联系，并通过不同的方法获得了相关结果。这说明该领域的研究受到了广泛关注，不同的研究团队从不同的角度对局部可测试码的性质进行探索。

总结来说，我们的工作主要聚焦于稠密局部可测试码的速率限制问题。通过对具有稠密测试器的局部可测试码进行深入分析，我们证明了这类码无法同时具备恒定速率和距离。具体来说，我们针对 3 查询和 $q > 3$ 查询的情况分别给出了速率的上界。并且通过设计一个算法，结合图论和概率的方法，完成了主要定理的证明。同时，我们还探讨了结果的扩展和改进方向，为后续的研究提供了思路。虽然目前还存在一些限制条件（如非加权测试器、LOF 约束等），但通过进一步的研究和改进，有望解决更一般的 c3 问题，即确定是否存在恒定速率、恒定距离且可通过恒定数量查询进行测试的局部可测试码。

下面是整个研究过程的 mermaid 流程图：

graph TD;
    A[研究背景] --> B[定义概念（纠错码、LTCs、测试器密度等）];
    B --> C[提出问题（c3 问题）];
    C --> D[分析稠密测试器性质];
    D --> E[得出结果（定理 1 和定理 2）];
    E --> F[设计算法证明定理 1];
    F --> G[证明引理 2 和引理 3];
    G --> H[完成定理 1 证明];
    E --> I[探讨结果扩展与改进];
    I --> J[总结与展望];
    K[相关工作] --> J;