65、局部可采样源的提取器与下界

局部可采样源的提取器与下界

在信息论和计算机科学领域,局部可采样源的研究具有重要意义。局部可采样源是指采样器的每个输出位仅依赖于少量输入位的源。下面将详细介绍相关的概念、结果和技术。

1. 基本概念与结果
  • 最小熵与统计距离
    • 有限集 $S$ 上的分布若每个元素出现的概率至多为 $2^{-k}$,则称该分布的最小熵至少为 $k$。
    • 有限集 $S$ 上两个分布 $D_1$ 和 $D_2$ 的统计距离定义为 $|D_1 - D_2| = \max_{T \subseteq S} |\Pr_{D_1}[T] - \Pr_{D_2}[T]|$。若 $|D_1 - D_2| \leq \epsilon$,则称 $D_1$ 和 $D_2$ 是 $\epsilon$-接近的。
  • 提取器
    • 设 $C$ 是 ${0, 1}^n$ 上的一类分布,函数 $\text{Ext} : {0, 1}^n \to {0, 1}^m$ 若对于 $C$ 中每个最小熵至少为 $k$ 的分布 $D$,都有 $|\text{Ext}(D) - U_m| \leq \epsilon$,则称 $\text{Ext}$ 是 $C$ 的一个 $(k, \epsilon)$-提取器。当说提取器是显式的,意味着存在具有所需行为的高效算法。
  • d - 局部采样器与 d - 局部源
    • $d$-局部采样器是函数 $f : {0, 1}^r \to {0, 1}^n$,使得每个输出位至多依赖于 $d$ 个输入位。即对于每个 $j \in {1, \ldots, n}$,存在子集 $I_j \subseteq {1, \ldots, r}$ 且 $|I_j| \leq d$,以及函数 $f_j : {0, 1}^{|I_j|} \to {0, 1}$,使得 $f$ 的第 $j$ 个输出位通过对 $I_j$ 索引的输入位计算 $f_j$ 得到。采样器的输出分布是 $f(U_r)$。
    • 若存在 $d$-局部采样器(输入长度任意),其输出分布为 $D$,则称 ${0, 1}^n$ 上的分布 $D$ 是 $d$-局部源。
2. 主要定理
  • 定理 1 :对于每个常数 $\gamma > 0$,存在常数 $\beta > 0$,使得对于 $d$-局部源类,存在显式的 $(k, \epsilon)$-提取器,输出长度 $m = k^2 / 8nd$,误差 $\epsilon = 2^{-n\beta}$,条件是 $k \geq n^{2/3 + \gamma}$ 且 $d \leq \beta \log n$。
  • 定理 2 :对于每个常数 $\gamma > 0$,存在常数 $\beta > 0$,使得对于 1 - 局部源类,存在显式的 $(k, \epsilon)$-提取器,输出长度 $m = k - o(k)$,误差 $\epsilon = 2^{-n\beta}$,条件是 $k \geq n^{1/2 + \gamma}$。
  • 定理 3 :存在通用常数 $\beta > 0$ 和显式函数 $F : {0, 1}^n \to {0, 1}$,使得对于 ${0, 1}^{n + 1}$ 上的每个 $d$-局部源 $D$,当 $d \leq \beta \log n$ 时,有 $|D - (U_n, F(U_n))| \geq 1/2 - 2^{-n\beta}$。
3. 技术方法

定理 1 的证明分为三个步骤:
1. 构造 1 - 局部源的提取器 :观察到所谓的低权重仿射源的提取器也适用于 1 - 局部源。在 Rao 的提取器基础上进行改进,构造低权重仿射源的提取器。Rao 的提取器处理最小熵至少为 $k$ 且权重至多为 $k^{\gamma}$(对于某个常数 $\gamma > 0$)的仿射源,改进后的提取器能处理权重至多为 $k^{1 - \gamma}$(对于任意常数 $\gamma > 0$)的源。关键改进成分是 Guruswami、Umans 和 Vadhan 的强凝聚器。
2. 证明 1 - 局部源的提取器适用于 $o(\log n)$ - 局部源 :将问题与二分图中的超独立匹配概念相关联,并证明关于此类匹配存在性的组合引理。
3. 增加提取器的输出长度 :使用 Gabizon 等人引入的“获得独立种子”技术。结合前两步得到输出长度为 $\Omega(k^2 / nd32^d)$ 的提取器,为将输出长度增加到 $\Omega(k^2 / nd)$,采用了相关技术改进。

4. 预备知识
  • 二分图 :工作中使用二分图 $G = (L, R, E)$,其中 $L$ 和 $R$ 是不相交的有限集(左节点和右节点),$E$ 是无序对的集合,一个元素来自 $L$,另一个来自 $R$。两个节点之间的距离是它们之间最短路径上的边数。
  • 凸组合 :设 $Y$ 是有限索引集,$(p_y) {y \in Y}$ 是 $Y$ 上的分布,对于每个 $y \in Y$,$D_y$ 是有限集 $S$ 上的分布,则凸组合 $\sum {y \in Y} p_y D_y$ 定义为按 $(p_y)_{y \in Y}$ 采样 $y$,然后从 $D_y$ 输出一个样本得到的 $S$ 上的分布。

相关引理如下:
|引理|内容|
| ---- | ---- |
|引理 1|设 $\text{Ext} : {0, 1}^n \to {0, 1}^m$ 是任意函数,$D = \sum_{y \in Y} p_y D_y$ 是 ${0, 1}^n$ 上的分布,则对于每个 $\epsilon \geq 0$,有 $|\text{Ext}(D) - U_m| \leq \epsilon + \Pr_{y \sim (p_y)_{y \in Y}}[|\text{Ext}(D_y) - U_m| > \epsilon]$。|
|引理 2|每个最小熵至少为 $k$ 的 $d$-局部源是最小熵至少为 $k - nd / c$ 的 $(d, c)$-局部源的凸组合。|

5. 1 - 局部源
  • 仿射源 :仿射源是 ${0, 1}^n$ 上在仿射子空间上均匀的分布(将 ${0, 1}^n$ 视为 $F_2$ 上的向量空间)。若子空间维数为 $k$,则其大小为 $2^k$,源的最小熵为 $k$。可以通过随机均匀选取 $x_1, \ldots, x_k \in {0, 1}$ 并输出 $z_0 + x_1z_1 + \cdots + x_kz_k$ 来采样,其中 $z_0 \in {0, 1}^n$ 是偏移向量,$z_1, \ldots, z_k \in {0, 1}^n$ 是相关线性子空间的基。若存在基向量 $z_1, \ldots, z_k$ 每个的汉明重量至多为 $c$,则称该源为权重 - $c$ 仿射源。
  • 观察 1 :每个 $(1, c)$-局部源也是权重 - $c$ 仿射源。
  • 相关定理
    • 定理 4 :存在通用常数 $C, \gamma > 0$,使得对于所有 $k \geq \log^C n$,存在显式的 $(k, 2^{-k^{\Omega(1)}})$-提取器,输出长度 $m = k - o(k)$,用于权重 - $k^{\gamma}$ 仿射(特别是 $(1, k^{\gamma})$-局部)源类。
    • 定理 5 :存在通用常数 $C > 0$,使得对于每个常数 $\gamma > 0$ 和所有 $k \geq \log^{C / \gamma} n$,存在显式的 $(k, 2^{-k^{\Omega(1)}})$-提取器,输出长度 $m = k - o(k)$,用于权重 - $k^{1 - \gamma}$ 仿射(特别是 $(1, k^{1 - \gamma})$-局部)源类。

定理 5 的证明紧密跟随定理 4 的证明,但插入了 [14] 中线性强凝聚器的应用,并且用 BCH 码的奇偶校验函数代替了小偏差生成器,从而获得更好的参数。

通过定理 5、引理 2 和推论 1 可以推出定理 2。具体来说,引理 2 表明每个最小熵至少为 $k \geq n^{1/2 + \gamma}$ 的 1 - 局部源是最小熵至少为 $k - n^{1/2} \geq k - o(k)$ 的 $(1, n^{1/2})$-局部源的凸组合,再结合推论 1 即可得到定理 2。

6. d - 局部源
  • 定理 6 :每个 $(1, 2nd / k)$-局部源的 $(k’, \epsilon’)$-提取器也是 $d$-局部源的 $(k, \epsilon)$-提取器,其中 $k’ = k^2 / 4nd32^d$,$\epsilon = \epsilon’ + e^{-k’ / 4}$。

假设在定理 6 中 $k \geq n^{2/3 + \gamma}$(对于常数 $\gamma > 0$)且 $d \leq \beta \log n$(对于足够小的常数 $\beta > 0$),则只需有 $(1, c)$-局部源的 $(k’, \epsilon’)$-提取器,其中 $k’ \geq n^{1/3 + \gamma}$ 且 $c = 2nd / k \leq n^{1/3} \leq (k’)^{1 - \gamma}$。这样的提取器由定理 5 给出,误差 $\epsilon’ = 2^{-n^{\Omega(1)}}$(因此 $\epsilon = \epsilon’ + e^{-k’ / 4} \leq 2^{-n^{\Omega(1)}}$),这已经得到了输出长度为 $k’ - o(k’) = \Omega(k^2 / nd32^d)$ 的定理 1 的一个版本。

  • 超独立匹配
    • 定义 :给定二分图 $G = (L, R, E)$,边集 $M \subseteq E$ 是超独立匹配,如果在 $G$ 中从 $M$ 中一条边的端点到 $M$ 中不同边的端点不存在长度至多为 2 的路径。
    • 引理 3 :设 $G = (L, R, E)$ 是无孤立节点的二分图,且 $L$ 中每个节点的度至多为 $c$,$R$ 中每个节点的度至多为 $d$,则 $G$ 有大小至少为 $|L| / d^2c$ 的超独立匹配。

下面是定理 6 证明的流程图:

graph TD;
    A[假设 Ext 是 (1, 2nd/k)-局部源的 (k', ϵ')-提取器] --> B[根据推论 1 和引理 2,只需证明 Ext 是 (d, c)-局部源的 (k/2, ϵ)-提取器];
    B --> C[考虑 (d, c)-局部采样器 f,其输出分布最小熵至少为 k/2];
    C --> D[得到关联二分图 G,去除孤立节点得到 G'];
    D --> E[应用引理 3 得到大小至少为 k/(2d2c) 的超独立匹配 M];
    E --> F[将输入 f 写为 (x, y),定义 fy 为 (1, c)-局部采样器];
    F --> G[分析 fy(Uℓ) 的最小熵];
    G --> H[通过 Chernoff 界证明 fy(Uℓ) 高概率有高最小熵];
    H --> I[得出 (d, c)-局部源是 (1, c)-局部源的凸组合];
    I --> J[再次应用推论 1 完成证明];

定理 6 的证明步骤如下:
1. 假设 $\text{Ext} : {0, 1}^n \to {0, 1}^m$ 是 $(1, 2nd / k)$-局部源的 $(k’, \epsilon’)$-提取器。根据推论 1($\delta = 0$)和引理 2,只需证明 $\text{Ext}$ 是 $(d, c)$-局部源(其中 $c = 2nd / k$)的 $(k / 2, \epsilon)$-提取器。
2. 考虑任意 $(d, c)$-局部采样器 $f : {0, 1}^r \to {0, 1}^n$,其输出分布的最小熵至少为 $k / 2$,设 $G = (L, R, E)$ 是关联的二分图。去除孤立节点得到 $\tilde{G}$,$\tilde{G}$ 左侧至少有 $k / 2$ 个节点。
3. 应用引理 3 可知 $G$ 有大小至少为 $k / (2d^2c)$ 的超独立匹配 $M$。设 $\ell = |M|$,不妨设 $M$ 的左端点为 $L’ = {1, \ldots, \ell} \times {in}$。将 $f$ 的输入写为 $(x, y)$,其中 $x \in {0, 1}^{\ell}$,$y \in {0, 1}^{r - \ell}$。
4. 由于 $M$ 是超独立的,每个 $y$ 对应的 $f_y(x) = f(x, y)$ 是 $(1, c)$-局部采样器,且 $f(U_r) = \sum_{y \in {0, 1}^{r - \ell}} \frac{1}{2^{r - \ell}} f_y(U_{\ell})$。
5. 设 $G_y = (L’, R, E_y)$ 是与 $f_y$ 关联的二分图,$f_y(U_{\ell})$ 的最小熵是 $L’$ 中在 $G_y$ 中非孤立的节点数。通过分析可知,对于 $i \in {1, \ldots, \ell}$,存在字符串 $w_i$,使得硬连线输入位后能保证 $(i, in)$ 非孤立。由于 $M$ 的超独立性,事件 $y| {I {j_i} \setminus {i}} = w_i$(对于 $i \in {1, \ldots, \ell}$)在 $y \sim U_{r - \ell}$ 上完全独立,且每个事件发生的概率至少为 $1 / 2^{d - 1}$。
6. 根据标准的 Chernoff 界可得 $\Pr_{y \sim U_{r - \ell}}[f_y(U_{\ell}) \text{ 最小熵小于 } k’] \leq e^{-k / 8d^2c2^d}$。
7. 综上,每个最小熵至少为 $k / 2$ 的 $(d, c)$-局部源是 $(1, c)$-局部源的均匀凸组合,从而完成定理 6 的证明。

局部可采样源的提取器与下界

7. 定理 3 的证明与改进

Viola 曾证明过定理 3 的一个版本,不过其统计距离下界仅为 $1/2 - O(1 / \log n)$,并且 $d$-局部采样器被限制为最多使用 $n + n^{1 - \delta}$ 个随机比特(对于任意常数 $\delta > 0$),他所使用的函数 $F$ 是所谓的“模 $p$ 多数”。

而现在采用不同的函数 $F$(即定理 1 背后提取器的任意一位),同时将下界改进到 $1/2 - 2^{-n^{\Omega(1)}}$,并消除了对随机比特数量的限制。定理 3 的证明使用了与 Viola 类似的思路,但由于 $F$ 的提取性质,实际上证明过程更为简单。

Viola 还表明,对于对称函数 $F$,对于多项式大小的常深度电路采样器,无法期望得到如此强的下界。而这里所使用的提取器函数 $F$ 是非对称的。

以下是证明定理 3 的步骤:
1. 选择合适的函数 $F$:选取定理 1 背后提取器的任意一位作为函数 $F$。
2. 分析统计距离:利用 $F$ 的提取性质,结合相关理论,分析 $|D - (U_n, F(U_n))|$ 的下界。
3. 消除限制:通过使用不同的函数 $F$,消除了对 $d$-局部采样器随机比特数量的限制。

8. 其他相关工作

在独立且同时期的工作中,Viola 为 $d \leq n^{o(1)}$ 的 $d$-局部源以及由 $AC^0$ 型电路采样的源构造了提取器。其高层思路保持一致:证明给定的源接近 1 - 局部源的凸组合,并使用相关提取器。然而,其证明过程比这里的更为复杂。

Bourgain、Yehudayoff 和 Li 为线性最小熵仿射源(任意权重)构造了提取器,与定理 5 相比,其误差更小,但输出长度更短。当 $k \geq \Omega(n)$ 且 $d \leq O(1)$ 时,这可用于改进定理 1 和定理 2 的误差。

9. 总结与展望

本文围绕局部可采样源的提取器与下界展开了深入研究,取得了一系列重要成果:
|成果|具体内容|
| ---- | ---- |
|定理 1|对于 $d$-局部源类,在一定条件下存在显式的 $(k, \epsilon)$-提取器,输出长度和误差有相应规定。|
|定理 2|对于 1 - 局部源类,在特定条件下存在显式的 $(k, \epsilon)$-提取器,输出长度和误差明确。|
|定理 3|存在通用常数和显式函数,使得对于 $d$-局部源有统计距离的下界。|

通过一系列的技术方法,如构造 1 - 局部源提取器、证明其对 $o(\log n)$ - 局部源的适用性以及增加提取器输出长度等,完成了定理 1 的证明。同时,在 1 - 局部源和 $d$-局部源的研究中,通过相关定理和引理的推导,得到了许多有价值的结论。

未来的研究方向可以从以下几个方面展开:
1. 进一步优化参数 :继续探索如何在保证提取器性能的前提下,进一步优化输出长度和误差等参数。
2. 拓展源的类型 :研究更广泛类型的局部可采样源,如具有不同结构或约束条件的源,构造相应的提取器。
3. 应用研究 :将这些提取器应用到实际的信息处理、密码学等领域,验证其实际效果。

下面是整个研究过程的 mermaid 流程图:

graph LR;
    A[定义基本概念] --> B[提出主要定理];
    B --> C[证明定理 1(三步法)];
    C --> D[研究 1 - 局部源];
    D --> E[推导定理 2];
    B --> F[研究 d - 局部源];
    F --> G[证明定理 6];
    B --> H[证明定理 3];
    C & D & F & H --> I[总结成果];
    I --> J[展望未来研究方向];

总之,局部可采样源的提取器与下界研究具有重要的理论和实际意义,未来还有很大的研究空间等待探索。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值