78、编码测试与解码算法的研究进展

seed

于 2025-10-08 09:15:35 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：近似与随机算法前沿文章标签：接近无感知测试不变性条件导数码

本文链接：https://blog.youkuaiyun.com/seed/article/details/153600542

近似与随机算法前沿专栏收录该内容

90 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

编码测试与解码算法的研究进展

在通信领域，误差校正码的研究一直是一个重要的课题。本文将介绍接近无感知测试（Proximity Oblivious Testing）和导数码的列表解码（List Decoding）的相关内容，包括它们的定义、性质以及与其他编码方式的比较。

1. 接近无感知测试与不变性的作用

1.1 测试复杂度下界

对于一个 $\ell \times \ell$ 循环网格的方向是否为欧拉图的测试，存在一个 $\Omega(\log \ell)$ 查询复杂度的下界。这意味着该性质不存在接近无感知测试器，然而它却满足不变性条件。

1.2 不变性猜想的失败情况

不变性猜想在两种自然的图性质测试模型中成立，但在其他情况下会失败，主要有以下三种类型：
1. 存在仅在恒等映射下封闭的性质也有接近无感知测试器，即无需任何不变性也能实现强可测试性。
2. 不满足不变性条件的性质也可能存在接近无感知测试器，且不限于不自然或缺乏任何不变性的性质。
3. 不变性条件并不意味着存在仅依赖接近参数的标准测试器，即使不变性条件相对于一个 1 - 传递的域置换群成立，且局部条件集由单个条件生成（在该置换群下封闭）。

1.3 对不变性条件的进一步思考

我们认为不变性条件对于接近无感知测试不是必要的这一事实，不如前者对于后者不充分这一事实令人惊讶。因此，我们考虑对不变性条件进行合理的加强，看是否足以实现接近无感知测试。一个自然的方向是对域置换群施加额外的限制，例如要求该群是 2 - 传递的。

1.4 不同视角

Sudan 对不变性作用的看法与本文不同，他将不变性视为一个主题或技术，认为尽管存在局限性，但不变性仍具有重要的统一力量。

1.5 测试器的定义

1.5.1 性质测试器

设 $P = \bigcup_{n \in N} P_n$，其中 $P_n$ 是定义在域 $D_n$ 上的函数集。性质 $P$ 的测试器 $T$ 是一个概率预言机，满足以下两个条件：
1. 对于每个 $f \in P$，测试器以至少 $\frac{2}{3}$ 的概率接受，即对于任意 $n \in N$ 和 $f \in P_n$（以及任意 $\epsilon > 0$），有 $Pr[T^f(n, \epsilon) = 1] \geq \frac{2}{3}$。
2. 给定 $\epsilon > 0$ 并通过预言机访问任何与 $P$ 的距离大于 $\epsilon$ 的 $f$，测试器以至少 $\frac{2}{3}$ 的概率拒绝，即对于任意 $\epsilon > 0$，任意 $n \in N$ 和定义在 $D_n$ 上的 $f$，如果 $\delta_P(f) > \epsilon$，则 $Pr[T^f(n, \epsilon) = 0] \geq \frac{2}{3}$，其中 $\delta_P(f) = \min_{g \in P_n}{\delta(f, g)}$，$\delta(f, g) = \frac{|{e \in D_n : f(e) \neq g(e)}|}{|D_n|}$。

如果测试器以概率 1 接受 $P$ 中的每个函数，则称其具有单边误差；如果测试器仅根据其内部硬币抛掷（以及参数 $n$ 和 $\epsilon$）确定所有查询，则称其为非自适应测试器，否则为自适应测试器。

1.5.2 接近无感知测试器

设 $P = \bigcup_{n \in N} P_n$ 如上述定义。性质 $P$ 的接近无感知测试器 $T$ 是一个概率预言机，满足以下两个条件：
1. 机器 $T$ 以概率 1 接受 $P$ 中的每个函数，即对于任意 $n \in N$ 和 $f \in P_n$，有 $Pr[T^f(n) = 1] = 1$。
2. 对于某个（单调）函数 $\rho : (0, 1] \to (0, 1]$，每个不在 $P$ 中的函数 $f$ 被 $T$ 拒绝的概率至少为 $\rho(\delta_P(f))$，其中 $\delta_P(f)$ 如上述定义。

函数 $\rho$ 称为测试器 $T$ 的检测概率。

1.6 测试器的复杂度

测试器的查询复杂度通常根据大小参数 $n$ 和接近参数 $\epsilon$ 来衡量。在本文中，我们主要关注复杂度仅依赖于 $\epsilon$（与 $n$ 无关）的情况。接近无感知测试器的查询复杂度通常依赖于大小参数 $n$，但本文关注复杂度为常数的情况。

1.7 复杂度关系

具有检测概率 $\rho$ 的接近无感知测试器可以产生一个查询复杂度为 $O(\frac{1}{\rho})$ 的标准（单边误差）性质测试器。

2. 导数码的最优速率列表解码

2.1 背景

在通信中，我们需要通过一个可能会任意损坏最多 $pn$ 个符号的对抗性信道传输 $n$ 个来自大字母表 $\Sigma$ 的符号来传递信息。误差校正码可以帮助我们在这样的信道上可靠地通信。

2.1.1 码的速率和误差校正

码 $C$ 是 $\Sigma^n$ 的一个精心选择的子集，只要干扰向量 $r$ 中最多有 $pn$ 个非零元素，就可以从其失真版本 $c + r$ 中恢复出任何 $c \in C$。码 $C$ 的速率 $R$ 定义为 $\frac{\log |C|}{n \log \Sigma}$，即消息中的信息比特数与传输的总比特数之比。显然，$R \leq 1 - p$，因为信道总是可以将最后 $pn$ 个符号置为零。

2.1.2 列表解码

列表解码允许我们从接近 $1 - R$ 的误差率中进行解码。存在速率为 $R$ 的码可以解码高达 $1 - R - \epsilon$ 的误差率，且列表大小有界为 $O(\frac{1}{\epsilon})$，但这是一个非构造性的结果。最近，通过折叠 Reed - Solomon 码和多项式时间解码算法，我们可以构造性地实现接近 $1 - R$ 的误差率的列表解码，但列表大小的保证比随机码的 $O(\frac{1}{\epsilon})$ 界大得多，是块长度的一个大多项式。

2.1.3 Reed - Solomon 码

对于整数参数 $1 < k < n$，一个大小 $\geq n$ 的域 $F$，以及一个由 $n$ 个不同元素组成的序列 $S = (a_1, \ldots, a_n)$，相关的 Reed - Solomon (RS) 码定义为：
$RS_{F,S}[n, k] = {[p(a_1), \ldots, p(a_n)] | p \in F[X] \text{ of degree } < k}$
该码的速率为 $R = \frac{k}{n}$，可以从高达 $1 - \sqrt{R}$ 的误差率中进行列表解码。但目前尚不清楚是否存在某些 Reed - Solomon 码可以从更大的半径进行列表解码，也不清楚是否存在某些 RS 码的列表大小会在该半径之外超多项式增长。

2.1.4 扩展 RS 码的解码

通过向 RS 编码中添加额外信息，可以解码超过 $1 - \sqrt{R}$ 的界限。Parvaresh 和 Vardy 在编码中使用了与消息多项式 $p$ 仔细相关的多项式的评估，但额外多项式的编码在速率方面成本很高，他们的改进仅限于低速率（最多 $\frac{1}{16}$），且无法达到最优的 $1 - R$ 半径。后来，Guruswami 和 Rudra 考虑了 RS 码的“折叠”版本，即折叠 Reed - Solomon 码。

2.1.5 折叠 Reed - Solomon 码

设 $F$ 是一个大小为 $q$ 的域，其非零元素为 ${1, \gamma, \ldots, \gamma^{n - 1}}$，其中 $n = q - 1$。设 $m \geq 1$ 是一个整除 $n$ 的整数，$1 \leq k < n$ 是度参数。则阶为 $m$ 的折叠 Reed - Solomon 码 $FRS_{F}^{(m)}[k]$ 是一个在字母表 $F^m$ 上的码，它将一个度为 $k$ 的多项式 $f \in F[X]$ 编码为：
$f(X) \mapsto
\begin{pmatrix}
\begin{bmatrix}
f(1) \
f(\gamma) \
\vdots \
f(\gamma^{m - 1})
\end{bmatrix},
\begin{bmatrix}
f(\gamma^m) \
f(\gamma^{m + 1}) \
\vdots \
f(\gamma^{2m - 1})
\end{bmatrix},
\ldots,
\begin{bmatrix}
f(\gamma^{n - m}) \
f(\gamma^{n - m + 1}) \
\vdots \
f(\gamma^{n - 1})
\end{bmatrix}
\end{pmatrix}$
该码可以解码高达约 $1 - (\frac{mR}{m - s + 1})^{\frac{s}{s + 1}}$ 的误差率，对于任何参数 $s$，$1 \leq s \leq m$，其中 $R = \frac{k}{n}$ 是码的速率。列表大小的界为 $q^{s - 1}$，解码复杂度也为相同的阶。

最近，发现了一种完全线性代数的算法，避免了使用扩展域。尽管该线性代数算法解码的误差率较小，但通过选择合适的 $s$ 和 $m$，仍然可以超过 $1 - R - \epsilon$。该算法除了修剪一个 $(s - 1)$ 维子空间以过滤相邻码字的步骤外，具有二次运行时间。

2.2 导数码的定义

在本文中，我们考虑另一种自然的 Reed - Solomon 码的变体，称为导数码。非正式地，在阶为 $m$ 的导数码中，我们将每个点上的函数 $f$ 及其前 $(m - 1)$ 个导数的评估捆绑在一起，而不是像折叠 Reed - Solomon 码那样将消息多项式在连续幂次的 $\gamma$ 处的评估捆绑在一起。

2.3 导数码的性质

虽然这种捆绑方式看起来可能会导致速率损失，但实际上不会，因为我们可以选择更高次的多项式，同时仍然保持距离。对于两个不同的度为 $\ell$ 的多项式，它们及其前 $(m - 1)$ 个导数最多在 $\frac{\ell}{m}$ 个点上相同。

2.4 主要结果

我们证明了导数码也可以达到列表解码容量，即对于任何 $\epsilon > 0$，选择 $m \approx \frac{1}{\epsilon^2}$，我们可以在多项式时间内从 $1 - R - \epsilon$ 的误差率中对阶为 $m$ 的导数码进行列表解码，其中 $R = \frac{k}{nm}$ 是码的速率。列表大小和运行时间的行为与折叠 RS 码的线性代数算法相似，我们可以通过求解两个线性系统找到一个包含所有相邻码字的低维空间。

2.5 动机

在本文之前，唯一已知的可以达到最优 $1 - R$ 界限的显式码是基于折叠 Reed - Solomon 码的。因此，寻找替代的代数构造是一个自然的问题。导数码的构造与折叠 Reed - Solomon 码一样自然，并且具有一些优点，例如在解码时利用侧信息进行高效唯一解码。

2.6 解码算法

我们的解码算法与 Reed - Solomon 和折叠 Reed - Solomon 码的算法类似，包括一个插值步骤和一个检索步骤：
1. 插值步骤 ：拟合一个形式为 $A_0(X) + A_1(X)Y_1 + A_2(X)Y_2 + \cdots + A_s(X)Y_s$ 的多项式（注意 $Y_i$ 的总次数为 1，且在插值中不使用“重数”）。
2. 检索步骤 ：求解“微分方程” $A_0(X) + A_1(X)f(X) + A_2(X)f’(X) + \cdots + A_s(X)f^{(s - 1)}(X) = 0$ 以找到低次多项式 $f$。

2.7 算法优势

该微分方程对 $f$ 的系数施加了一个线性方程组，其具体结构与折叠 RS 码的不同。一旦知道了 $f$ 及其前 $s - 2$ 个导数在某个点 $\alpha$（插值多项式 $A_s$ 在该点不为零）的值，其余的值就由该系统确定。这有两个优点：
1. 以这些值（在随机 $\alpha$ 处）作为侧信息可以立即得到一个高效的唯一解码算法。
2. 在实践中，$A_s$ 在评估点中可能没有很多零点，此时我们可以高效地获得所有码字。

2.8 复杂度挑战

与折叠 RS 码一样，导数码的最坏情况列表大小的证明界对 $\epsilon$ 有指数依赖（当解码半径为 $1 - R - \epsilon$ 时），改善这个界仍然是一个挑战。但我们不能排除通过更好的分析来改善这个界的可能性，因为一般来说，证明这些代数码的列表大小下界是一个非常困难的问题。

2.9 算法流程

graph TD
    A[接收含噪码字] --> B[插值步骤]
    B --> C[拟合多项式 A0(X)+A1(X)Y1+A2(X)Y2+...+As(X)Ys]
    C --> D[检索步骤]
    D --> E[求解微分方程 A0(X)+A1(X)f(X)+A2(X)f'(X)+...+As(X)f^(s-1)(X)=0]
    E --> F[输出候选多项式列表]

2.10 与其他码的比较

码类型	解码半径	列表大小	解码复杂度	优势
Reed - Solomon 码	$1 - \sqrt{R}$	未知	未知	经典构造
折叠 Reed - Solomon 码	约 $1 - (\frac{mR}{m - s + 1})^{\frac{s}{s + 1}}$	$q^{s - 1}$	约 $q^{s - 1}$	可构造性
导数码	$1 - R - \epsilon$	类似折叠 RS 码	类似折叠 RS 码	利用侧信息高效解码

编码测试与解码算法的研究进展

3. 不同编码方式的详细对比

3.1 解码性能对比

为了更直观地比较 Reed - Solomon 码、折叠 Reed - Solomon 码和导数码的解码性能，我们进一步分析它们在不同参数下的表现。

3.1.1 Reed - Solomon 码

其解码半径为 $1 - \sqrt{R}$，当码率 $R$ 较小时，解码半径相对较大，但随着 $R$ 的增大，解码半径会迅速减小。例如，当 $R = 0.25$ 时，解码半径为 $1 - \sqrt{0.25}=0.5$；当 $R = 0.81$ 时，解码半径为 $1 - \sqrt{0.81}=0.1$。

3.1.2 折叠 Reed - Solomon 码

其解码半径约为 $1 - (\frac{mR}{m - s + 1})^{\frac{s}{s + 1}}$，对于不同的 $s$ 和 $m$ 参数，解码半径会有很大变化。当 $s = 1$ 时，性能与 Reed - Solomon 码相同；当 $m$ 和 $s$ 较大时，解码半径可以超过 $1 - R - \epsilon$。例如，当 $m = 100$，$s = 10$，$R = 0.2$ 时，通过计算可得解码半径大于 $1 - 0.2 - \epsilon$。

3.1.3 导数码

可以从 $1 - R - \epsilon$ 的误差率中进行列表解码，对于任意小的 $\epsilon$，只要选择合适的 $m \approx \frac{1}{\epsilon^2}$，就能达到接近最优的解码性能。例如，当 $\epsilon = 0.1$ 时，$m \approx 100$，可以在多项式时间内从 $1 - R - 0.1$ 的误差率中进行解码。

3.2 复杂度对比

三种编码方式在解码复杂度和列表大小方面也存在差异。

码类型	解码复杂度	列表大小
Reed - Solomon 码	未知	未知
折叠 Reed - Solomon 码	约 $q^{s - 1}$	$q^{s - 1}$
导数码	类似折叠 RS 码	类似折叠 RS 码

从表中可以看出，折叠 Reed - Solomon 码和导数码的解码复杂度和列表大小具有相似的性质，且都与参数 $s$ 有关。当 $s$ 较大时，解码复杂度和列表大小都会显著增加。

3.3 优势对比

不同的编码方式具有不同的优势，适用于不同的应用场景。

Reed - Solomon 码 ：作为经典的编码方式，具有简单、易于理解和实现的优点，在一些对解码性能要求不高的场景中仍然被广泛使用。
折叠 Reed - Solomon 码 ：可以通过调整参数 $s$ 和 $m$ 来提高解码半径，具有较好的可构造性，在一些对解码性能有一定要求的场景中表现出色。
导数码 ：最大的优势在于可以利用侧信息进行高效的唯一解码，在实际应用中，如果能够获取到一些额外的信息，导数码可以发挥出更好的性能。

4. 未来研究方向

4.1 降低列表大小的指数依赖

目前，折叠 Reed - Solomon 码和导数码的最坏情况列表大小对 $\epsilon$ 有指数依赖，这限制了它们在一些对列表大小要求严格的场景中的应用。未来的研究可以致力于寻找更好的分析方法或算法，以降低这种指数依赖。例如，可以尝试引入新的数学工具或优化现有的解码算法，使得列表大小在接近最优解码半径时仍然能够保持较小的值。

4.2 探索更多的替代编码构造

虽然导数码提供了一种替代折叠 Reed - Solomon 码的构造方法，但仍然有很大的探索空间。未来可以研究更多的代数构造，寻找具有更好性能和复杂度的编码方式。例如，可以考虑结合不同的数学结构或编码思想，设计出全新的编码方案。

4.3 实际应用中的性能优化

在实际应用中，编码方式的性能不仅取决于理论上的解码半径和列表大小，还受到硬件实现、信道特性等多种因素的影响。未来的研究可以关注如何在实际应用中优化编码方式的性能，例如通过优化解码算法的实现细节、调整编码参数以适应不同的信道条件等。

4.4 流程图：未来研究方向

graph LR
    A[降低列表大小指数依赖] --> B[寻找更好分析方法]
    A --> C[优化解码算法]
    D[探索更多替代编码构造] --> E[结合不同数学结构]
    D --> F[设计全新编码方案]
    G[实际应用性能优化] --> H[优化解码算法实现]
    G --> I[调整编码参数适应信道]

5. 总结

本文介绍了接近无感知测试和导数码的最优速率列表解码的相关内容。在接近无感知测试方面，我们讨论了不变性条件在测试中的作用，以及不同类型的测试器的定义和复杂度。在导数码的列表解码方面，我们回顾了 Reed - Solomon 码和折叠 Reed - Solomon 码的相关知识，并详细介绍了导数码的定义、性质和主要结果。通过对比不同编码方式的解码性能、复杂度和优势，我们发现导数码在利用侧信息进行解码方面具有独特的优势，但仍然面临着列表大小指数依赖的挑战。未来的研究可以围绕降低列表大小、探索新的编码构造和优化实际应用性能等方向展开。