稠密局部可测试码无法同时具备恒定速率和距离
1. 引言
纠错码是一个集合 $C \subset \Sigma^n$,其速率为 $\log |C| / n$,相对距离是两个不同码字 $x, y \in C$ 之间的最小汉明距离除以 $n$,这里我们只考虑距离为 $\Omega(1)$ 的码。
如果一个码有一个测试器,该测试器是一个能对接收字 $x$ 进行预言访问的随机算法,它最多读取 $x$ 中的 $q$ 个符号,并基于此局部视图判断 $x$ 是否属于 $C$,则称该码是 $q$ 查询局部可测试的。测试器应能以概率 1 接受码字,并以显著概率拒绝与码在汉明距离上相差较大的字。若测试器具有参数 $(\tau, \varepsilon)$,则对于任意 $x \in \Sigma^n$,当 $dist(x, C) \geq \tau$ 时,有 $Pr[Tester\ rejects\ x] \geq \varepsilon$。
局部可测试码(LTCs)近年来受到了广泛研究。先验地,LTCs 的存在性并非显而易见。例如,哈达玛码是 LTCs 的一个著名例子,但它的速率非常低($\log n / n$),效率不高。自 Goldreich 和 Sudan 的工作以来,已经给出了几种其他有效的 LTCs 构造。目前已知的 LTCs 最佳速率为 $1 / \log^{O(1)} n$,且这些码具有 3 查询测试器。未能构造出具有恒定速率、恒定距离且可通过恒定数量查询进行测试的 LTCs,引出了该领域的一个主要开放问题:是否存在具有 c3 属性的 LTCs,即恒定速率、恒定距离且可通过恒定数量查询进行测试的 LTCs(这类 LTCs 在文献中有时被称为“渐近良好”)。两查询且具有“最后一个固定”(LOF)测试的情况已在相关研究中有所探讨,但 $q \geq 3$ 的情况更有趣且仍未完全解决。
2. 稠密测试器
在这项工作中,我们在 c3 问题的一个变体上取得了进展。我们证明了具有所谓稠密测试器的 LTCs 不能是 c3。
测试器的密度大致是每个坐标参与的不同局部视图的平均数量。更正式地,每个测试器会产生一个约束超图 $H = ([n], E)$,其顶点是码字的 $n$ 个坐标,超边对应于测试器的所有可能局部视图。每个超边 $h \in E$ 还与一个约束相关联,即一个布尔函数 $f_h : \Sigma^q \to {0, 1}$,它决定了测试器在该局部视图上是接受还是拒绝。对于给定的字符串 $x \in \Sigma^n$,我们用 $x_h$ 表示通过将 $x$ 限制到超边 $h$ 中的坐标而得到的子字符串。$f_h(x_h)$ 的值决定了字符串 $x$ 是否违反约束。
定义 1(测试超图,密度)
:设 $C \subseteq \Sigma^n$ 是一个码,$q \in N$ 且 $\varepsilon > 0$。设 $H$ 是一个约束超图,其超边的大小至多为 $q$。若 $H$ 满足以下条件,则它是 $C$ 的一个 $(\tau, \epsilon)$ - 测试超图:
- 对于每个 $x \in C$ 和每个 $h \in E$,$f_h(x_h) = 1$;
- 对于每个 $x \in \Sigma^n$,当 $dist(x, C) \geq \tau$ 时,有 $Pr_{h \in E}[f_h(x_h) = 0] \geq \epsilon$,其中 $dist(x, y)$ 表示相对汉明距离,即 $x$ 与 $y$ 不同的坐标的比例。
最后,$H$ 的密度就是平均度 $|E| / n$。
超图描述了一个随机均匀选择一个超边的测试器。注意,我们不允许超边有权重,这一点将在后面进一步讨论。
Goldreich 和 Sudan 证明了每个密度为 $\Omega(1)$ 的测试器可以通过以适当概率随机消除每个超边而变成一个密度为 $O(1)$ 的“稀疏”测试器。这意味着一个码可以同时拥有稠密和稀疏测试器。因此,我们定义一个码的密度 $\geq d$ 当且仅当它有一个密度为 $d$ 的测试器。需要强调的是,在这项工作中,密度是码的一个属性,而不是测试器的属性。我们证明了某些稠密测试器的存在会限制码的速率。
我们称一个 LTC 是稀疏的,如果它没有密度为 $\omega(1)$ 的测试器。目前我们还不知道有任何稀疏的 LTC。因此,我们的工作为已知 LTCs 所达到的有界速率提供了一些解释。
实际上,人们不禁会想密度是否是 LTCs 的一个固有属性。这种观点的直觉是,为了实现局部可测试性,码似乎需要在局部测试之间有一定的冗余,而这种冗余可能会转化为密度。如果能证明每个 LTC 都是稠密的,结合我们的工作,就可以排除 c3 - LTCs 的存在。
为了支持这一方向,第二作者及其合作者的工作表明,每个线性 LTC(即使速率有界)都必须有一定的非平凡密度:他们证明了没有线性 LTC 可以仅通过构成对偶码基的测试进行测试。此外,任何测试器都必须有显著更多的测试,即每个这样的 LTC 的测试器都需要一定的恒定密度。
3. 我们的结果
我们对具有稠密测试器的 LTCs 的速率进行了限制。我们只考虑约束具有“最后一个固定”(LOF)属性的测试器,即任何 $q - 1$ 个符号的值决定最后一个符号的值。例如,任何线性约束都具有这种属性。
我们针对 $q = 3$ 和 $q > 3$ 这两种情况给出了不同的界限,其中 $q$ 表示查询的数量。
-
定理 1
:设 $C \subseteq {0, 1}^n$ 是一个 3 查询 LTC,距离为 $\delta$,$H$ 是一个具有密度 $d$ 和 LOF 约束的 $(\delta/3, \varepsilon)$ - 测试超图。那么,$C$ 的速率至多为 $O(1/d^{1/2})$(其中 $O$ 符号隐藏了对 $\delta$ 和 $\varepsilon$ 的依赖)。
-
定理 2
:设 $C \subseteq {0, 1}^n$ 是一个 $q$ 查询 LTC,距离为 $\delta$,$H$ 是一个具有密度 $\Delta$(其中 $\Delta = dn^{q - 2}$)和 LOF 约束的 $(\delta/2, \varepsilon)$ - 测试超图。那么,$C$ 的速率至多为 $O(1/d)$。
这些结果在测试器具有以下两个属性时成立:
- (无权重)每个 $q$ 元查询组出现的概率相同。
- (“最后一个固定”)在测试器的每个 $q$ 查询“测试”中,任何 $q - 1$ 个符号的值决定最后一个符号的值。
此外,我们还证明了对结果进行一些自然的定量改进将解决一般的 c3 问题,即对于非稠密 LTCs 也是如此:
- 在这项工作中,我们只处理无权重的测试器,即超图没有权重。一般来说,测试器可以对不同的超边赋予不同的权重。这种限制不能完全消除,但可能可以通过更精细的密度定义来解决。
- 在定理 1 中,我们证明了 $\rho \leq O(1/d^{0.5})$。我们表明,将 0.5 指数进行任何改进(例如提高到 $0.5 + \varepsilon$)将再次排除 c3 - LTCs 的存在。
- 在定理 2 中,我们仅在密度非常高(即 $\omega(n^{q - 2})$)时对速率进行了限制。我们表明,对密度为 $O(n^{q - 3})$ 的情况进行任何限制将再次排除 c3 - LTCs 的存在。似乎我们的上界 $\omega(n^{q - 2})$ 可以改进为 $\omega(n^{q - 3})$,可能通过与定理 1 证明中类似的论证。
4. 中等稠密 3 查询 LTCs 不能是 c3
为了证明定理 1,我们考虑超图 $H = (V, E(H))$,其顶点是码的坐标,超边对应于测试器的不同测试。假设 $H$ 有 $dn$ 个不同的超边。
我们给出一个算法来为码字的坐标赋值,并证明一个码字可以用 $k = O(\frac{n}{d^{1/2}})$ 位来确定。
对于 $H$ 的顶点 $V$ 的一个划分 $(A, B)$,我们定义图 $G_B = (A, E)$,其中 $E = {{a_1, a_2} \subset A | \exists b \in B, {a_1, a_2, b} \in E(H)}$。
定义 2 :两个顶点 $v, v’$ 是等价的,如果对于所有的 $w \in C$,有 $w_v = w_{v’}$。显然,这是一个等价关系。一个顶点的重数为 $m$,如果其等价类中恰好有 $m$ 个顶点。
设 $V^*$ 是重数至多为 $\beta d^{1/2}$ 的顶点集合,其中 $\beta = \alpha/16$,$\alpha = 3\varepsilon/\delta$。
以下是算法步骤:
1.
初始化
:
- 令 $\alpha = 3\varepsilon/\delta$ 并固定 $\beta = \alpha/16$。
- 让 $B$ 包含所有重数至少为 $\beta d^{1/2}$ 的顶点。
- 让 $F$ 包含这些重数类的每个代表。
- 让 $B$ 还包含所有对于所有码字值都相同的顶点。
2.
清理步骤
:重复以下操作直到 $B$ 保持不变:
- 将出现在有两个端点在 $B$ 中的超边中的任何顶点添加到 $B$ 中。
- 将 $G_B$ 中大小至少为 $\beta d^{1/2}$ 的连通分量中的所有顶点添加到 $B$ 中,并将该连通分量中的任意一个元素添加到 $F$ 中。
- 将 $B$ 中具有等价顶点的任何顶点添加到 $B$ 中。
3.
S 步骤
:$B$ 之外的每个顶点以概率 $1/d^{1/2}$ 掷一个有偏硬币并进入 $S$。令 $B \leftarrow B \cup S$ 并设置 $F \leftarrow F \cup S$。
4.
终止条件
:如果存在至少两个不同的 $x, y \in C$ 使得 $x_B = y_B$,则转到步骤 1,否则停止。
引理 1
:如果算法停止,则码最多有 $2^{|F|}$ 个码字。
证明:在每一步中,设置 $F$ 中顶点的值已经完全确定了 $B$ 中所有顶点的值(在任何有效码字中)。一旦算法停止,码字在 $B$ 上的值就决定了整个码字。因此,最多有 $2^{|F|}$ 个码字。
设 $B_t$ 表示第 $t$ 次清理步骤结束时的集合 $B$。为了分析算法停止时 $F$ 的期望大小,我们分析尚未在 $B$ 中的顶点在下一次迭代中进入 $B$ 的概率。对于顶点 $v$,这由其邻域结构决定。令 $E_v = {{u, u’} | u, u’ \in V^*, 且 {u, u’, v} \in E(H)}$,并记 $A = {v | |E_v| \geq \alpha d}$。
引理 2
:对于 $t \geq 2$,如果 $v \in A$,则 $Pr_S [v \in B_t] \geq \frac{1}{2}$。
引理 3
:如果算法在第 $t$ 步之前没有停止,且 $|A_{t - 1}| < \frac{\delta}{2}n$,则算法将在第 $t$ 步结束时停止。
在证明这两个引理之前,我们先看看它们如何推出定理 1。
定理 1 的证明
:对于每个 $t \geq 2$,引理表明对于每个 $v \in A_{t - 1}$,一半的 $S$ 会将其放入 $B_t$。我们可以忽略大小超过 $2 \cdot \frac{n}{d^{1/2}}$ 的 $S$ 集合,因为它们的比例可以忽略不计。通过期望的线性性,我们期望至少一半的 $A_{t - 1}$ 进入 $B_t$。特别地,固定某个 $S_{t - 1}$ 为达到(或超过)期望的 $S$。只要 $|A_{t - 1}| \geq \frac{\delta n}{2}$,我们有 $|B_t| \geq |B_{t - 1}| + |A_{t - 1}| / 2 \geq |B_{t - 1}| + \frac{\delta n}{4}$。由于 $|B_t| \leq n$,在 $\ell \leq \frac{4}{\delta}$ 次迭代后,当算法使用 $S_1, \ldots, S_{\ell}$ 运行时,我们必须有 $|A_{\ell}| < \frac{\delta n}{2}$。这意味着引理 3 的条件成立,算法停止。
$F$ 集合有多大呢?在每个 $S$ 步骤中,$F$ 集合增长了 $|S| \leq \frac{2n}{d^{1/2}}$。在 $S$ 步骤中添加到 $F$ 中的顶点总数为 $O(\ell \cdot \frac{n}{d^{1/2}})$。其他顶点在初始化步骤和步骤 1b 中添加到 $F$ 中。在这两个步骤中,每 $\beta d^{1/2}$ 个添加到 $B$ 中的 $B$ 之外的顶点会有一个顶点添加到 $F$ 中。由于顶点不会离开 $B$,这种类型的 $F$ 顶点总数为 $\frac{n}{\beta d^{1/2}}$。
综上所述,以非零概率,最终的 $F$ 集合大小为 $O(\frac{1}{d^{1/2}}) \cdot n$。结合引理 1,这给出了码字数量的所需界限。
下面是算法流程的 mermaid 图:
graph TD;
A[初始化] --> B[清理步骤];
B --> C{S 是否使算法停止};
C -- 否 --> B;
C -- 是 --> D[结束];
B --> E[S 步骤];
E --> C;
5. 引理 2 的证明
我们固定某个 $v \in A$。如果 $v \in B_{t - 1}$,则由于 $B_t \supseteq B_{t - 1}$,我们就完成了。所以假设 $v \notin B_{t - 1}$,并分析在第 $t - 1$ 次迭代中随机选择集合 $S$ 时 $v$ 进入 $B_t$ 的概率。这由 $E_v$ 的边所诱导的图结构决定。令这个图为 $G = (U, E_v)$,其中 $U$ 只包含至少与 $E_v$ 中的一条边接触的顶点。我们不知道 $U$ 中有多少个顶点,但我们知道 $|E_v| \geq \alpha d$。
我们首先观察到 $U$ 中 $u$ 的所有邻居必须在同一个等价类中。因为每个边 ${v, u, u_i}$ 都是 $H$ 中的超边,且 $u_i$ 的值由 $v$ 和 $u$ 的值决定。因此,$G$ 中任何顶点 $u \in U$ 的度至多为 $\beta d^{1/2}$,因为重数更高的顶点不在 $V^*$ 中,因此不参与 $E_v$ 的边。
对于每个 $u \in U$,令 $I_u$ 是一个指示变量,当且仅当 $u$ 的某个邻居进入 $S$ 时取值为 1。如果发生这种情况,则有以下两种情况:
- $u \in S$:这意味着 $v$ 有一个超边,其另外两个端点在 $B_t$ 中,并且 $v$ 本身将在步骤 1a 中进入 $B_t$。
- $u \notin S$:这意味着图 $G_{B_t}$ 将有一条边 ${v, u}$。
如果对于任何 $u \in U$ 第一种情况发生,我们就完成了,因为 $v$ 在步骤 1a 中进入 $B_t$。否则,随机变量 $\sum_{u \in U} I_u$ 计算了在 $G_{B_t}$ 中将出现多少条不同的边 ${v, u}$。如果这个数字超过 $\beta d^{1/2}$,则 $v$ 将在步骤 1b 中进入 $B_t$。
很容易计算 $I$ 的期望值。首先,观察到 $E[I_u] = 1 - (1 - \frac{1}{d^{1/2}})^{deg(u)}$,由于 $u$ 的度至多为 $\beta d^{1/2}$,这个值在 $\frac{deg(u)}{2d^{1/2}}$ 和 $\frac{deg(u)}{d^{1/2}}$ 之间。通过期望的线性性,$E[I] = \sum_{u} E[I_u] \geq \sum_{u} \frac{deg(u)}{2d^{1/2}} = |E_v| d^{-1/2} \geq \alpha d^{1/2}$。
我们将证明 $I$ 有很大概率达到接近期望值的值(特别是至少为 $\frac{\alpha d^{1/2}}{2} \geq \beta d^{1/2}$),这将使 $v$ 在步骤 1b 中进入 $B_t$。变量 $I_u$ 不是相互独立的,但我们可以通过界定 $I$ 的方差并应用切比雪夫不等式来显示足够的集中性。
稠密局部可测试码无法同时具备恒定速率和距离
6. 引理 3 的证明
假设算法在第 $t$ 步之前没有停止,且 $|A_{t - 1}| < \frac{\delta}{2}n$。
我们知道,$A_{t - 1}$ 是在第 $t - 1$ 步时,不在 $B_{t - 1}$ 中且满足特定条件(在 $A$ 中或者通过 $G_{B_{t - 1}}$ 中的路径与 $A$ 中的某个顶点相连)的顶点集合。
由于 $|A_{t - 1}| < \frac{\delta}{2}n$,这意味着剩余不在 $B_{t - 1}$ 中的顶点数量相对较少。并且根据前面的分析,这些顶点进入 $B_t$ 的概率也相对较低。
在第 $t$ 步的操作中,无论是清理步骤还是 $S$ 步骤,都不会使大量不在 $B_{t - 1}$ 中的顶点进入 $B_t$。因为清理步骤主要是基于已有在 $B_{t - 1}$ 中的顶点和超边关系来添加顶点,而 $S$ 步骤中顶点进入 $S$ 的概率是 $1/d^{1/2}$,且 $A_{t - 1}$ 规模较小。
所以,在第 $t$ 步结束后,不会再出现有两个不同的码字 $x, y$ 使得 $x_{B_t} = y_{B_t}$ 的情况。也就是说,算法满足停止条件,将在第 $t$ 步结束时停止。
7. 结果的扩展与改进
7.1 扩展
在当前的初步版本中,我们假设字母表是布尔的,但这些结果很容易扩展到任何有限字母表 $\Sigma$。因为整个分析过程主要是基于码的结构、测试器的性质以及一些概率和图论的方法,这些方法并不依赖于字母表的具体取值,只要字母表是有限的,就可以将现有的证明思路和结论进行推广。
另外,有可能去掉对约束的“最后一个固定”(LOF)限制,但这还需要进一步的研究和推导。如果能够去掉这个限制,那么我们的结果适用范围将更加广泛,能够涵盖更多类型的局部可测试码。
7.2 改进
我们发现,对结果进行一些自然的改进将有助于解决更一般的 c3 问题。
-
非加权测试器的改进
:在这项工作中,我们只处理非加权测试器,即超图的超边没有权重。但在实际情况中,测试器可以对不同的超边赋予不同的权重,这在组合多种类型的测试时是很自然的。虽然这种限制不能完全消除,但可以通过更精细的密度定义来解决。例如,可以考虑根据超边的权重对密度进行加权平均,重新定义一个更合适的密度概念,使得我们的结果能够适用于加权测试器的情况。
-
定理 1 指数的改进
:在定理 1 中,我们证明了码的速率 $\rho \leq O(1/d^{0.5})$。如果能够将 0.5 指数进行改进,比如提高到 $0.5 + \varepsilon$(其中 $\varepsilon > 0$),那么就可以再次排除 c3 - LTCs 的存在。这是因为这样的改进会进一步限制具有稠密测试器的码的速率,使得恒定速率和恒定距离的局部可测试码更难以存在。
-
定理 2 密度范围的改进
:在定理 2 中,我们仅在密度非常高(即 $\omega(n^{q - 2})$)时对速率进行了限制。如果能够对密度为 $O(n^{q - 3})$ 的情况进行限制,也将排除 c3 - LTCs 的存在。而且似乎我们的上界 $\omega(n^{q - 2})$ 可以改进为 $\omega(n^{q - 3})$,可能通过与定理 1 证明中类似的论证方法,进一步挖掘码的结构和测试器的性质之间的关系。
以下是改进方向的表格总结:
| 改进方向 | 当前情况 | 改进目标 | 意义 |
| ---- | ---- | ---- | ---- |
| 非加权测试器 | 只处理非加权测试器 | 考虑加权测试器 | 扩大结果适用范围 |
| 定理 1 指数 | $\rho \leq O(1/d^{0.5})$ | 提高指数到 $0.5 + \varepsilon$ | 进一步限制码的速率,排除 c3 - LTCs |
| 定理 2 密度范围 | 限制 $\omega(n^{q - 2})$ 密度时的速率 | 限制 $O(n^{q - 3})$ 密度时的速率 | 扩大密度适用范围,排除 c3 - LTCs |
8. 相关工作与总结
在我们研究的过程中,了解到 Eli Ben - Sasson 和 Michael Viderman 也在研究密度和速率之间的联系,并通过不同的方法获得了相关结果。这说明该领域的研究受到了广泛关注,不同的研究团队从不同的角度对局部可测试码的性质进行探索。
总结来说,我们的工作主要聚焦于稠密局部可测试码的速率限制问题。通过对具有稠密测试器的局部可测试码进行深入分析,我们证明了这类码无法同时具备恒定速率和距离。具体来说,我们针对 3 查询和 $q > 3$ 查询的情况分别给出了速率的上界。并且通过设计一个算法,结合图论和概率的方法,完成了主要定理的证明。同时,我们还探讨了结果的扩展和改进方向,为后续的研究提供了思路。虽然目前还存在一些限制条件(如非加权测试器、LOF 约束等),但通过进一步的研究和改进,有望解决更一般的 c3 问题,即确定是否存在恒定速率、恒定距离且可通过恒定数量查询进行测试的局部可测试码。
下面是整个研究过程的 mermaid 流程图:
graph TD;
A[研究背景] --> B[定义概念(纠错码、LTCs、测试器密度等)];
B --> C[提出问题(c3 问题)];
C --> D[分析稠密测试器性质];
D --> E[得出结果(定理 1 和定理 2)];
E --> F[设计算法证明定理 1];
F --> G[证明引理 2 和引理 3];
G --> H[完成定理 1 证明];
E --> I[探讨结果扩展与改进];
I --> J[总结与展望];
K[相关工作] --> J;
以上就是关于稠密局部可测试码无法同时具备恒定速率和距离的详细研究内容和分析。
超级会员免费看
679

被折叠的 条评论
为什么被折叠?



