分块p篡改攻击的影响

最新推荐文章于 2025-11-20 11:10:57 发布

原创最新推荐文章于 2025-11-20 11:10:57 发布 · 500 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#p篡改攻击 # 密码学原语 # 提取器 # 学习器 # 分块模型

分块 p‐篡改攻击对密码学原语、提取器和学习器的影响

赛义德·马赫卢吉法尔(B)和穆罕默德·马赫穆迪
弗吉尼亚大学，夏洛茨维尔，美国{saeed,mohammad}@virginia.edu

摘要

奥斯特林等人 [1]研究了在随机化算法中对随机性进行逐位 p篡改攻击的概念，其中一种高效‘病毒’能够以独立的概率在线方式控制随机性的每一位。该工作[1]表明，如何通过对逐位p篡改来破坏某些‘隐私原语’（例如，加密、承诺等），方法是构造一种逐位 p篡改 biasing攻
击，以提升任意高效函数 E[f(Un)]的平均 f:{0, 1}n →[−1,+1]通过 Ω(p · Var[f(Un)])。
在本研究中，我们重新审视并扩展了[1]的逐位篡改模型至 blockwise场景，其中随机性的各个块以独立概率 p变得可被篡改。我们的主要结果是一种高效的分块p篡改攻击，能够对任意高效函数f（将任意 X映射到 [−1,+1]）的平均 E[f(X)]引入偏置，偏置量为Ω(p·Var[f(X)])，具体取决于X如何被划分为单独可篡改的块 X=(X1, . . . , Xn)。基于先前 [1,19,36],的研究成果，我们的主要偏差攻击立即意味着在攻击者可以以独立概率 p篡改每个随机性块（或源）的模型中，可对隐私原语以及无种子多源提取器实施高效的攻击。此外，我们展示了在瓦利安特的对抗噪声下的所谓“定向投毒”攻击模型中，如何增加确定性学习器的分类错误率。
在此模型中，攻击者心中有一个“目标”测试数据 d，希望提高对 d的分类错误率，同时她可以以独立概率 p在线方式篡改每个训练样本。

1 引言

在这项工作中，我们研究了旨在实现对抗性目标的、能够高效操纵随机化算法随机性的篡改攻击。篡改攻击自然可以放在密码算法的背景下进行研究，因为这些算法（希望）能够访问完全均匀且未被篡改的随机性以确保安全
S. 马赫卢吉法尔——由弗吉尼亚大学工程与应用科学学院研究创新奖支持。M. 马赫穆迪——由NSF职业奖CCF‐1350939及弗吉尼亚大学工程与应用科学学院研究创新奖支
持。c©国际密码学研究协会 2017年 Y. 卡莱和L. 雷津（编）：TCC 2017，第二部分，LNCS 10678，第245–279页，2017年。https://doi.org/10.1007/978‐3‐319‐70503‐3_8
本文档由 funstory.ai 的开源 PDF 翻译库 BabelDOC v0.5.10 (http://yadt.io) 翻译，本仓库正在积极的建设当中，欢迎 star 和关注。

246 S. 马赫卢吉法尔和 M. 马赫穆迪

实现安全性。然而，此类攻击的范围超出了密码学的范畴，还可以更广泛地研究任何依赖未被篡改的随机输入并试图实现特定目标的算法类别（例如，使用未被篡改的训练数据的学习算法来生成假设）。在这里，我们关注理解当对手能够篡改甚至控制 ≈ p比例的随机性时，针对随机性的此类篡改攻击的能力与
局限性。1
与我们此处研究最相关的是奥斯特林等人[1]提出的工作，该工作引入了对密码学原语随机性的逐位 p篡改攻击的概念。在此模型中，对手生成一个高效‘病毒’，该病毒可进入“被感染”的设备并读取所有信息，但在其可更改
的内容上受到限制。当随机性比特流 R=(r1,…, rn)生成时，对于每一位 ri， p‐
篡改病毒以独立概率 p决定是否更改 ri（即，以概率(1−p)保持该位不变）。
p‐篡改攻击是在线的，因此病毒无法获知未来的输入比特，但可以根据已生成的（可能已被篡改的）比特历史来做出决策。[1]的研究证明，逐位 p‐篡改攻击总能使高效有界函数 f：{0, 1}n →[−1,+1]的平均值增加 Ω(p ·Var[f(Un)])，其中Var[f(Un)]是 f(rn)的方差。
奥斯特林等人 [1]展示了如何利用其主要的高效逐位 p‐篡改偏差攻击，攻破多种具有“不可区分性”安全游戏的“隐私”密码学原语（例如公钥和私钥加密、零知识、承诺等）。在这种密码学攻击中，code篡改病毒的代码由外部对手生成，而该对手仅知道公开信息（例如公钥）。此前，多迪斯等人 [19]已表明，对于相同的密码学原语，存在高最小熵的Santha‐Vazirani随机性源 [39]，可使其变得不安全。因此，[1]的工作加强了 [19]的结果，展示了如何通过高效的 p‐篡改攻击生成此类“不良”SV源。[1],的 p‐篡改攻击，特别是其对平衡有界函数输出进行偏置的核心攻击，关键依赖于攻击者能够以概率 p独立地篡改每一个比特随机性。独立地然而，随机性通常是以块而非比特的形式生成的 [4,16,21,28],，例如在启动时[30],，并且也以块的形式提供给请求它们的算法。因此，考虑那些有时能够更改传入随机性块的篡改攻击者确实是自然的。

分块 p‐篡改攻击

在本研究中，我们重新审视了逐位 p‐篡改模型[1]，并将其扩展到篡改可能发生在块上的场景。假设 A是一个以 X=（X1 × · · · × Xn）为输入的算法，其中 X是一个由 n个块组成的分布，且第 i个块是从分布 Xi中独立采样的。 A例如， A可以是一个密码学 Xi算法，其中 i是提供给 A的均
匀随机性的第{v42}个块。或者 A也可以是一个学习算法，接收 n
独立同分布训练样本。粗略地说，一种
1请注意，如果对手能够控制所有的随机性，那么我们实际上就回到了在确定性环境中所能做的事情。
分块 p‐Tampering攻击 24 7
对（随机性）的分块 p‐篡改攻击是一种算法Tam，其工作方式如下。假设我们逐个采样块 xi← Xi。然后对于每个 i，第 i个块 xi以独立概率 p成为“可篡改的”，并以概率 1 − p保持不变。如果 xi变为可篡改的，则Tam可以在在线方式下将 xi替换为 Xi的支撑集2中的另一个值 x′i。也就是说，当Tam有机会篡改 xi时，它可以根据先前（已被篡改）块的知识来决定一个新的块 x′i。
篡改算法Tam还可以依赖于（从而了解关于）算法 A的所有信息，包括截至目前所选择的所有输入，但它不能在未被给予篡改随机性块的机会时写入任何内容。
不同的 p‐篡改攻击者可能追求不同的目标。例如，正如在逐位设置中所做的那样，[1],中的 p‐篡改攻击可能旨在“泄露”秘密信息（例如，明文）。另
一个例子是Tam希望增加学习器输出的假设的分类错误率A，其中每个块 xi=
（d, t）由从同一分布中采样的带标签样本组成。
我们还注意到，尽管主要被称为篡改攻击， p‐篡改攻击并非盲目的篡改攻击者，而是自然依赖于在篡改下一位/块之前对先前随机比特的了解，尽管这种知识仅提供给篡改病毒本身，例如，并不提供给生成该病毒代码的外部攻击者。
这正是本文所证明的 p‐篡改攻击的能力与已知的正面结果（例如[18,24,26,32]，其保证了防篡改性）并不矛盾的原因。

1.1 我们的结果

我们的主要成果是将[1]的偏差攻击推广到分块设置中。我们首先描述这一结果，然后将介绍该偏差攻击的一些应用。

定理1（非正式表述） 。设 X=(X1 × · · · × Xn)为一个乘积分布，其中每个 Xi都是高效可采样的。对于任意高效函数f: Supp(X) →[−1,+1]，存在一个高效分块 p-篡改攻击，使得在采样输入上 f的平均值至少增加 Ω(p) · Var[f(X)]。
参见定理4的形式化描述。类似于[1],，我们还证明了定理1在布尔函数特殊情况下的一个变体，但具有更好的参数（见定理5）。然而，该偏置引理的一些应用（例如，攻击密码学原语，或攻击具有非布尔代价/损失函数的学习算法）需要使用定理1中的非布尔攻击。
我们对有界函数的主要偏置 p‐篡改攻击甚至适用于 X不是not乘积分布的情况。在这种情况下，我们假设
2我们只允许篡改算法在支撑集中生成内容。一个更一般的定义允许篡改算法在支撑集之外进行选择，然而，我们的限制只会使我们的攻击更强。
248 S. 马赫卢吉法尔和 M. 马赫穆迪
即 X以“有状态”的方式采样，并且下一个块 Xi的采样是在对手对块的选择条件下进行的。这一扩展使得我们的模型能够包含之前针对图上的随机游走的 p‐ 篡改攻击的特殊模型[3]。
我们还证明了主要偏置攻击的一些应用，这些应用依赖于其分块特性。除了通过分块 p‐篡改获得针对密码学原语安全性和多源随机提取器的攻击外，我们还展示了在密码学之外的应用。特别是，利用偏置攻击对非均匀分布的强大能力，我们展示了如何通过在线方式注入 p比例的对抗性数据来攻击输出分类器的学习算法并提高其错误率。接下来，我们将简要讨论这些应用中的每一个。

对密码学原语随机性的攻击

如前所述， p‐针对偏置函数的逐位篡改攻击是[1]
破坏密码学原语安全性的核心，该攻击通过篡改其随机性实现。利用我们定理 1中的偏差攻击，我们可立即得到针对相同密码学原语的分块攻击。这一次，我们的攻击无论随机性如何被打包成块都有效，并且在以下意义上是“稳健的”：
即使篡改概率 p1、p2、......并不相等，只要 p ≤ pi对所有 i成立即可。3

推论1（非正式） 。设 P为以下任一原始方案：CPA安全的公钥或私钥加密、高效证明者的NP零知识证明、承诺方案，或仅一方获得输出的两方计算。则存在一种高效的分块 p-篡改攻击，能够以优势 Ω(p)破坏 P的安全性。特别地，即使被篡改的随机性块的长度在攻击前未知，且仅在攻击过程中才变得明确，该攻击仍然成功。
通过将我们定理1中的偏差攻击代入到[1]的证明中，可以得到上述定理。

针对分块 p篡改的安全性？

除了展示逐位 p篡改攻击的能力外，[1]的工作还展示了如何针对基于伪造的密码原语（例如签名）在逐位 p篡改攻击下实现安全协议，其中 p= 1/poly(κ)， κ为安全参数。对于相同的密码原语，当我们转向分块设置时，是否能够取得积极（安全）的结果，取决于篡改攻击的块大小。
例如，如果一个签名方案的密钥生成算法的全部随机性作为一个整体被篡改
事实上，我们观察到 [1] 的逐位 p‐篡改攻击也是具有鲁棒性的，但对于我们的分块 p‐ 篡改攻击，证明其鲁棒性变得更加困难。此外，我们认为鲁棒性是密码学攻击的一个重要特征，因此值得明确研究，因为某些攻击（例如从逐位到分块 p‐篡改的归约（请参见完整版本中的证明））不一定具有鲁棒性。
分块 p‐Tampering攻击 24 9
块（概率 p ≥ 1/poly(κ）下，对手可以选择一个不安全密钥。另一方面，如果所有块均为固定大小（或甚至大小为o(lg κ)），则可使用与[1]中类似的论证，使基于伪造的密码原语对任意 p ≤ κ−Ω(1)均安全。

针对偏置提取器的有效攻击

我们针对块源的（无种子）随机性提取器，提出的分块 p‐篡改攻击是实施“偏置攻击”的自然工具。

多源无种子提取器的偏置

我们可以直接使用我们的 p‐篡改攻击来针对任何特定的多源无种子随机性提取器[12,39,43]。也就是说，假设 f是一个高效的无种子提取器，它接收n个随机性块(x1, . . . , xn) ←(X1 × · · · × Xn)，其中分布 Xi属于某一随机源类别。那么，对于任意可采样的X=(X1, . . . , Xn)，定理 5给出了一个高效的 p‐篡改攻击者，能够将分布 X转换为 Y，使得 |E[f(Y) ]| ≥Ω(p)。需要注意的是， Y的一个有趣特性是，它在(≈ 1 − p)比例的块中与 X完全相同。特别地，正如我们将看到的，定理1中的攻击者具有如下性质：在篡改每个块时，它要么保持原样不变，要么仅对该块进行一次“重采样”。
我们的 p‐篡改攻击对提取器的第二个应用有所不同，它不是在可以进行无偏提取时攻击提取器，而是为关于块Santha‐Vazirani源的一个已知不可能性结
果[6,19,22,36]提供了一种替代性的算法证明[39]。下面，Uj i= Ui × · · · × Ui指的是 j个块，每个块由 i个均匀比特组成。

从SV源中提取随机性的不可能性

Santha和Vazirani的著名工作[39]证明了从具有高最小熵的源中进行确定性随机性提取的一个强否定结果。SV源（见定义7）是一种在{0, 1}n上的联合分布(X1, . . . , Xn)，其保证是：即使以所有前序比特为条件，每一位仍然 δ‐接近均匀分布。特别地，[39]证明了对于任意确定性（所谓提取器）函数 f: {0, 1}n →{+1,−1}，总存在一个 δ‐SV源 X=(X1, . . . , Xn)，使得 |E[f(X)]| ≥ Ω(δ)。Reingold等人[36]利用所谓的 “半空间”源为此结果提供了一个简洁优雅的证明，这一思想也被引入到多迪斯等人[19]的工作中，他们将[39]的结果推广到了块源[13]。一个(, k)‐块SV 源是一个长度为比特的块序列，其中每个块在前序块条件下具有至少k的最小熵（见定义8）。
尽管 p篡改攻击通常不会生成具有“高”最小熵的块SV源，但我们证明了我们定理中的特定 p篡改攻击者确实生成了一个(, − p)块SV源。因此，我们得到了关于从块SV源进行确定性提取不可能性的另一种证明，但这一次是通过高效的 p篡改攻击实现的。
4具体而言，我们证明了以下结论。
4请注意，这确实比仅获得一个可采样源的条件更强。参见注释 1。
250 S. 马赫卢吉法尔和 M. 马赫穆迪

定理2（对块SV源的高效 p‐篡改攻击） 。设函数 f：{0, 1}·n →{+1,−1}是针对（, −p）块SV源的一个“候选”高效确定性提取器。则存在一种高效的 p-篡改攻击，能够生成一个（, − p）块SV源，使得 f的平均值变为 Ω（p）。
我们的主要贡献在于定理2中其 p‐篡改攻击者的效率，因为如果没有该条件，可以使用一个计算上无界 p‐篡改攻击者来证明定理2 ，该证明在[19,36]中是隐含的，在[6,22]中针对块SV源的情况是显式的。事实上，我们通过证明从另一种SV源的推广形式——互最大散度[23]（MMD）源（见定义6）中高效提取比特的不可能性，得到了比定理2更一般的结果。

攻击学习器

在这项工作中，我们还将分块 p‐篡改攻击应用于“对抗性”机器学习场景中，其中攻击者旨在增加学习算法对特定测试数据的错误率，而该测试数据是攻击者已知的。接下来，读者可能会发现第4.2节开头的标准术语回顾是有帮助的。

针对学习器的定向投毒攻击

投毒攻击（又称因果攻击）[2,40,44]是针对学习
系统的模型攻击，其中对手会操纵训练数据 x=(x1, . . . , xn)，其中 xi是第 i
个带标签的训练样本，以增加学习算法的错误率。投毒攻击可以用来建模篡改随时间发生[37,38]的场景，例如因为学习算法使用可能被篡改的数据每日或每周“重新训练”。定向（投毒）攻击[40]指的是对手知道将在其上测试假设的特定测试数据 X，并且她可能有兴趣增加该假设在这一特定测试集 X上的错误率。为了便于讨论，下面我们假设 X={(d, t)}，其中 t是 d的标签，而对手的目标是使学习算法为 d输出一个错误标签。
Valiant [42]定义了一种非常自然的模型来描述投毒攻击的发生方式。在此
模型中，一个来自分布 X的训练预言机 OX(.)（训练序列 x=(x1,…, xn)将从
中采样）会被对手以如下方式操纵：每当训练算法查询该预言机时，以概率 1 − p答案由原始预言机OX生成，而以概率 p一个有状态的对手 A控制预言机，并返回任意一对(d, t)。许多后续工作（例如，[10,31]）研究了如何使学习器抵御此类噪声，但并未针对目标场景进行研究。
瓦利安特模型与 p‐篡改。针对训练预言机的瓦利安特对抗模型确实与我们的分块 p‐篡改模型非常相似，唯一的区别在于，在瓦利安特模型中，对手被允许使用错误标签（即 xi=(d, t)，其中 t不是 d的正确标签）。然而，正如我们上文所讨论的，我们的 p‐篡改攻击者不允许超出分布的“支撑集”（见定义18）。
在本研究中，证明了
分块 p‐Tampering攻击 25 1
针对分类器的确定性学习器的以下攻击（形式化描述见定理8）。两种模型之间一个微妙的差异在于，在瓦利安特模型中，对手知晓学习器的当前状态的全部信息，而在我们的模型中，对手仅知晓块的历史。对于我们的所有攻击而言，对手只需“继续”学习器所执行的计算即可，而知晓当前状态（如瓦利特模型中所示）使我们能够做到这一点，即使先前的块未知也是如此。因此，我们所有的 p‐篡改攻击确实适用于瓦利安特模型。

定理3（非正式——针对分类器的定向投毒攻击） 。设 L为一个确定性学习算
法 L ，该算法接收来自同一分布 X的独立同分布样本序列 x=(x1,…, xn)，
其中 xi=(di, i)， i是 di的标签。假设在无篡改的情况下， L在测试样本 d
上犯错的概率在 x1,…, xn← X的选择下为 δ。那么存在一种针对训练序列(x1,
…, xn)的 p-篡改攻击，可将对 d进行分类的错误率提高至 δ′ ≥ δ+Ωδ(p)。
此外，若 X可高效采样，则该攻击也是高效的。
请注意，上述攻击者是一个 p‐篡改攻击者，意味着它从未超出分布的支撑集。换句话说，我们的攻击者在其对抗样本中不使用任何错误标签！因此，我们的攻击是“可辩护的”，因为它们产生的结果始终可能是诚实采样下的合法结果，因此无法在法庭上证明数据不是诚实地生成的！之前关于投毒攻击的研
究（例如，[2,40,44]）主要针对特定的学习器，而我们的结果可以应用于任意
学习器。

与[10,31]的与分布无关的设定进行比较

凯恩斯和李 [31]以及布肖等人 [10]
的早期工作已经证明了在瓦利安特模型的对抗噪声下PAC学习的不可能性。除了在其攻击中使用错误标签（这在 p‐篡改模型中是不允许的）之外，他们的模型与我们的 p‐篡改投毒攻击之间还有另一个区别。的攻击是在与分布无关的设定下证明的，其负面结果严重依赖于存在某种在对抗噪声下PAC不可学习的初始分布。而我们的攻击即使在特定分布设定下也适用，即对手无法控制初始分布的情况下，仍总能将该分布转为对学习器不利。

1.2 我们的分块 p‐Tampering偏置攻击背后的思想 k

在本小节中，我们描述了定理1的证明背后的一些思想。

能否规约到逐位篡改？

我们的第一个观察是，对服从均匀分布的块 U s 1 ×… U s n 进行分
块p˜‐篡改，可以规约为对 N= ∑i s i多个均匀比特进行p‐篡改，只要 1 − p˜ ≤(1 − p) s i
252 S. 马赫卢吉法尔和 M. 马赫穆迪
对于每个 si。其思想是，如果 1 − p˜ ≤(1 − p)si，那么在分块模型中整个块 Usi
被篡改的概率至少等于在逐位模型中至少有一个比特被篡改的概率。因此，一个分块攻击者可以在内部“模拟”逐位攻击者。（参见完整版本中对此论证的形式化描述。）然而，这种归约在三个方面存在不足。（1）首先，为了使用这种归约，我们需要使用 p ≈ p˜/s，其中 s是任意块的最大长度。因此，我们无法获得超过 1/s的偏置，特别是当块大小非常数时，该值最多为 o(1)。这使得我们无法实现需要较大Ω(1)偏置的应用（例如，对提取器的攻击）。（2）其次，这种归约仅适用于原本分布为均匀比特的块（即 Us），因此无法应用于一般的非均匀分布，而我们的Tam‐篡改攻击针对学习器的场景正是非均匀分布的情况。（3）
最后，这种归约无法保持鲁棒性，因为Tam‐篡改算法需要知道篡改发生时的精
确概率，而在我们将分块篡改应用于密码学原语的鲁棒性研究中，我们希望实现不依赖于这种精确知识的鲁棒攻击。正因如此，本文旨在针对分块模式设计一种直接的攻击方法并进行分析。
的工作[1]使用了一种所谓的“温和贪婪”攻击，以在逐位 p‐篡改攻击中对实值有界函数进行偏置。粗略地说，该攻击的工作方式如下：当发生篡改时，
篡改算法首先选择随机比特 b′ i。然后，通过使用随机延续 b′ i+1，… ， b′ n它解
释 s= f（b1,…, bi−1, b ′ i,…）来判断选择 b′ i的好坏。接着，基于 s使用一个有
偏硬币，篡改算法决定是保留 b′ i还是将其翻转为1− b′ i。不幸的是，这种攻击是专为逐位设置设计的，因为翻转一个块并不自然（甚至没有明确定义）。

我们的一次拒绝采样攻击

在此工作中，我们提出了一种针对分块设置的新攻击，该攻击受到[1]的温和贪婪攻击的启发。我们的攻击并非温和贪婪攻击到分块设置的精确‘推广’，因为即使对于单比特的均匀块情况，它仍然不同于温和贪婪攻击，但它确实受到一次贪婪攻击的启发，并且其分析也借鉴了温和贪婪攻击分析中的思想[1]。我们将这种篡改攻击称为一次拒绝采样，记为
ORSam，其工作方式如下：给定先前已选择的块（y1,…, yi−1），其中 X（部
分可能是被篡改的块），篡改算法ORSam首先在‘脑海中’采样（y ′ i← Xi,…,
y
′ n← Xn），然后获取 s= f（y1,…, yi−1, y ′
i ,…, y
′ n），并输出：
{Case 1: with probability 1+s 2 : keep y ′
i
Case 2: with probability 1−s 2 : use a fresh sample y ′′ i ← Xi.
为什么单次拒绝采样有效？主要挑战在于证明上述简单的单次拒绝采样攻击确实能够实现与方差成比例的偏置。为了将偏置与方差关联起来，需要
分块 p‐Tampering攻击 253
函数，我们首先需要定义两个符号。对于每个前缀 x≤i= x1，… ， xi，令 f[x≤i]= E[f
（X）|X1= x1，… ， Xi= xi]为在该前缀条件下函数 f关于分布X的f 的平均值。
同时令 g[x≤i]= f[x≤i] −ˆ ˆf[x≤i−1]表示从 x≤i−1到 x≤i时f 的平均值的变化量（即 f）。一个直接的计算表明
Var[f(X)]= E (x1,…,xn)←X[∑
i∈[n]
g[x≤i] 2]=∑
i∈[n]
E
x≤i←(X1,…,Xi)
[g[x≤i] 2]. (1)
这仅仅是因为序列(f[x≤0], . . . , f[x≤n])构成一个鞅。假设在对 X进行 p‐篡
改后，新的分布为 Y=(Y1, .. . , Yn)。方程(1)提出了以下自然思路：通过将其
与方差Var[f(X)]相关联，来下界估计在攻击生成的分布下提高平均d= E[f(Y)
] − E[f(X)]所实现的“全局增益”量。特别地，只需通过将该项E(x1,…,xn)
←X[g[x≤i] 2]（对于相同的固定 i）相关联，即可下界估计在以概率 p对特定块 i应用我们的单次拒绝采样时， f平均值的“局部增益”。直接计算表明，我们的单次拒绝采样攻击对任意前缀 x≤i所获得的‘局部增益’恰好为
p 2 · Exi+1←Xi+1[g[x≤i, xi+1]2]。
不幸的是，一个微妙的问题阻止了我们使用上述论证，因为一旦发生篡改，我们就会偏离原始分布X，而块的“前缀”将来自新的分布 Y而非X，因此我们无法直接使用公式(1)通过与Var[f(X)]的关系来下界局部增益。尽管如此，可以证明公式(1)的一个变体仍然成立，其中大致上Var[f(Y)]替代了Var[f(X)]。
因此，基于Var[f(X)]对Var[f(Y)]进行下界估计就足够了。为了实现这一目标，
我们采用了与[1]类似的思想，通过对 i进行归纳，证明在攻击过程中的任意ˆ
时刻，在新的被篡改分布 Y下 f[x≤i]的均值或方差足够大。详见第5节。

1.3 进一步的相关工作与模型

自从博内等人[9]的工作以来，人们已经知道，即使对某些协议的计算进行 random篡改，也可能导致严重的攻击。詹纳罗等人[26]的工作开启了对算法抗篡改性的形式化研究。沿着这一方向，Dziembowski 等人[25],提出的非延展性编码已成为防止对算法内部状态进行篡改攻击的核心工具。最近，钱德拉恩等人[11]研究了在blockwise篡改模型中的非延展性编码，该模型与本文中的模型具有相似性，尽管我们的目标完全不同。最后，贝尔亚尔等人[7]开创了 algorithm substitution攻击的研究，其中强大攻击者可以恶意替换算法的组件。

掷币

从高层次来看，我们针对布尔函数偏置的分块篡改攻击在概念上与对
254 S. 马赫卢吉法尔和 M. 马赫穆迪
掷币协议 [8,15,17,29,34]的攻击有一些相似之处。实际上，这两类攻击都旨在通过“替换”某些“块”来对最终比特引入偏置。在我们的设定中，块是下一个采样的随机性数据块，而在掷币协议中，块则是恶意选择并发送给对方的消息！然而，此类攻击中的篡改模式属于两个互补集合之一（对应于每一方的轮次），而在我们的设定中，每个块以独立的概率成为可篡改的 p。

具有有界预算的篡改

[15,27,33]的研究探讨了在分块设置中相关篡改攻击的能力，其中对手的目标确实是偏置某个函数的输出。然而，在这些论文中，尽管对手对其篡改次数具有“有限预算”，但它可以选择何时对某个块进行篡改；而在我们的模型中，对手对 1 − p比例的块没有任何控制权，并且无法选择哪些块会如此。多迪斯[20]的研究探讨了这两种模型的一种“混合”形式，其中对手拥有一个可自主选择使用的有界预算，但在其他情况下也能进行“随机” 篡改。

2 预备知识

对数用 lg(·) 表示，除非另有说明，否则它们是以2为底的。 a, b ∈ D 表示 a ∈ D 和 b ∈ D。对于字符串 x ∈{0, 1}∗， |x| = n 表示 x ∈{0, 1}n。对于随机化算法算法A，我们只显式表示其输入，而不表示其随机性， y← S(x) 表示使用新的随机性运行 S(x) 并得到 y 作为输出的过程。

关于分布和随机变量的符号说明

除非另有说明，本文中的所有随机变量和分布均为离散且有限的。我们使用大写字母表示随机变量和分布（例如， X）。
对于实值随机变量 X， E[X]和Var[X]分别表示 X的期望值和方差。我们通常
使用相同的字母来指代分布及其从中采样的随机变量。用Supp(X) ={x | Pr [X= x]> 0}表示 X的支撑集。从 X中采样 x的过程记为 x← X，而 X ≡ Y用于表示 X和 Y具有相同的分布。
我们用 Um 表示在 {0, 1}m 上均匀分布的随机变量。用 (X, Y) 表示联合分布的随机变量 X, Y。(X × Y) 指的是 (X, Y)，其中 X 和 Y 从它们的边缘
分布中独立采样得到。对于联合随机变量 (X, Y) 以及任意 y← Y，(X | y) 表示在 Y= y 条件下 X 的分布。当在期望值（或概率）中使用像 X 这样的
随机变量时，表示该期望值（或概率）也对 X 取平均（例如， E[f(X)]= E x←X[f(x)] 以及 Pr[f(X) = 1]=Prx←X[f(x) = 1]）。我们也遵循这样的惯例：同一短语中同一随机变量 X 的多次出现指的是相同样本（例如， Pr[X= X]= 1 恒成立）。对于随机变量 D，我们也用 D(x) 表示 Pr[D= x]。

定义1（比特提取）

设 X是域D上的一组分布。我们称函数 f： D →{+1,−1}
为 X（源）的 ε‐提取器，如果对于每个 X ∈ X都有 |E[f（X）]| ≤ ε成立。

De定义 2

H∞(X) = minx∈Supp(X)lg(1/p(x)) 是最小熵的 X。

定义3（分布的跨度）

设 X={X1,…, Xk}是同一域上的分布集合。对于
α1+ · · ·+ αk= 1， X=∑i∈[k] αiXi指的是分布 X ，使得Pr[X= a]= X(a)
= ∑i αiXi(a)。也就是说，可以通过以下过程对 X进行采样：首先以概率 i ∈[k]采样 αi，然后采样 x ← Xi并输出 x。 X中分布的跨度被定义为 X中所有分布的凸组合的集合：Span(X)={X=∑i∈[k] αiXi | ∑i∈[k] αi= 1}。

引理1（霍夫丁不等式）

假设A1,…, An是定义在[−1,+1]上、期望值为 E[Ai]= μ的独立同分布随
机变量，令 A=Ei←[n][Ai] [|A −μ| ≥ ε] ≤
e−n·ε2/2
ε ≥ 0 为其平均值。那么，对于所有情况，我们有Pr。

2.1 距离度量

定义4（统计距离）

随机变量 X、 Y之间的统计距离（也称为全变差距离）定义为
DSD(X, Y)= max
E⊆Supp(X)
Pr[X ∈ E] − Pr[Y ∈ E].

引理2（统计距离的特征化）

成立的是 DSD( X, Y) ≤p当且仅当存在分布 Z, X′,
Y ′，使得 X=(1 − p)Z+ pX′且 Y=(1−p)Z+pY ′。特别地，如果 Y=(
1
Y) ≤ p，因为 X=(1 −p)X+ pX恒成立。

定义5（KL散度）

从分布 Q到分布 P的Kullback-Leibler（KL）散度
定义如下：DKL( P||Q) = Ea←Plg(P(a)/Q(a)) 如果Supp(P) ⊆Supp(Q)，否则为
D KL( P||Q) = ∞如果Supp(P) ⊆Supp(Q)。

定义6（最大散度[23]）

从 Q到 P的最大散度定义如下：D∞(P||Q) =max
a ∈ Su pp(P)lg(P(a)/Q(a))，如果Supp(P) ⊆Supp(Q)；如果Supp(P) ⊆Supp(Q)，则 D ∞
(P||Q) = ∞。
The work of[23]使用e作为对数的底定义了最大散度的概念，但在本研究中我们采用以2为底的变体，两者之间相差一个乘性常数因子 lge。以下引理列出了最大散度的一些基本性质（见定义6）。

引理3（最大散度的性质）

设 X, Y为分布且p< 1。
1. 以下条件是等价的。(a) D∞(X||Y) ≤ lg(1/(1 −p))。(b)对于所有 a ∈
Supp(X)，都有 Pr[X= a] ·(1 −p) ≤ Pr[Y= a]。(c)存在某个随机变量 Z，使得 Y=(1 − p)X+ pZ。也就是说， Y可以按如下方式采样：以概率 1 −p从 X中采样，以概率 p从 Z中采样。
2. 对于Supp(Y) ⊆{0, 1}m，H∞(Y) ≥ k当且仅当 D∞(Y ||Um) ≤ m− k。
3. 如果 D∞(X||Y) ≤ r且 D∞(Y ||X) ≤ r，则 DKL(X||Y) ≤ r(2r −1)。
证明(证明概要)。这里我们仅简要概述证明过程，因为它们是直接的。第1a和 1b部分的等价性直接由最大散度的定义得出，因此我们仅证明第1b和1c部分的等价性。假设第1c部分成立，我们有
Pr[X= a] ·(1 −p) ≤ Pr[X= a] ·(1 −p)+ Pr[Z= a] · p= Pr[Y= a]
这意味着第1b部分。假设第1b部分成立，我们在Supp(Y)上定义分布 Z如下： Z(a) =(Y(a) −(1 − p) · X(a))/p。容易看出Z(a) ≥ 0且∑a Z(a) = 1，因此 Z确实定义了一个分布。此外，我们有
X(a) · ] (1 −p)+ Z(a) · p= X(a) ·(1 −p)+(Y(a)− X(a) ·(1 −p))= Pr[Y= a
这意味着 Y=(1 −p)X+ pZ，证明了第1c部分。
第二部分直接由最小熵和最大散度的定义得出。
第3部分遵循[23]中的相同证明，但在最大散度的定义中使用以2为底的对数而非e。

2.2 桑塔‐瓦齐拉尼信源及其推广

定义7 (SV源 [39])

一个联合分布 X=(X1,…, Xn)其中Xi ∈{0, 1}对所有 i ∈[n]是偏
置至多为 δ的-桑塔-瓦齐拉尼（δ-SV）源δ ∈[0, 1]，如果对于所有 i ∈[n]和所有 x1,…,
xi ∈{0, 1}，都有(1 − δ)/2 ≤Pr[Xi= xi | X1= x1,…, Xi−1= xi−1] ≤(1+ δ)/2.

定义8（块SV源[13]）

假设X=(X1,…, Xn)是一个联合分布，其中 Xi ∈{0, 1}
对所有 i ∈[n]成立。如果对于所有 i ∈[n]以及所有可能的(x1,…, xi−1)←(X1,…,
X i−1)，都有 H ∞(Xi | x 1,…, x i−1) ≥ k，则称 X为一个(, k)-块SV源。

可以看出， δ‐SV源是(1, 1 − γ)‐块SV源，其中 γ=lg(1+ δ) ≤ δ。贝吉等人[6]提出的以下定义推广了上述SV源和块SV源的两种定义。

定义9（广义SV源 [6])

设 D为字母表 C上的一组分布（骰子）。若对于所
有 i ∈[n]和 x1，…， xi−1 ∈ C，存在 S ∈Span(D)，使得对所有 xi ∈ C成立：
Pr[Xi= xi | X1= x1,…, Xi−1= xi−1]= Pr[S= xi].

3 分块 p‐篡改：定义与主要结果

在本节中，我们将正式描述我们的结果。
随机变量序列的符号表示我们用 Dn表示乘积分布 D×· · ·×D（n次）。利用这
一符号， Un m表示一个包含 n块的序列，每一块都独立地服从 Um的分布。因
此，尽管 Un m和 Unm最终都是 m · n个随机比特，但前者被划分为 n个块，而后
者被划分为 m个块。对于向量 x=（x1,…, xn），我们记 x≤i=为（x1,…, xi），
x<i=为（x1,…, xi−1）。

定义10（有效前缀与条件采样）

设 X=(X1,…, Xn)为一个联合分布。如
果存在 xi+1,…, xn，使得(x1,…, xn) ∈Supp(X)（即x≤i ∈ Supp(X≤i)），
则称 x≤i=(x1,…, xi)为 X的一个有效前缀。我们用ValPref(X)表示 X的所
有有效前缀（包括空字符串 x≤0）组成的集合。对于一个有效前缀 y≤i ∈ ∈
ValPref(X)，用(Xi | y≤i−1)表示条件分布(Xi | X1= y1,…, Xi−1=|yi−1)。

定义11（可在线采样的随机变量序列）

我们称一个随机化算法 S(·)为联合分
布 X=(X1,…, Xn)的在线采样器，如果对于每个有效前缀 x≤i−1 ∈
ValPref(X)，都有 S(x≤i−1)按照(Xi | x≤i−1)进行输出。如果 X= X(n)是一个
由 n索引的向量族中的向量，我们令 N= N(n)表示 X的表示的总长度（即(
X1,…, Xn) ∈{0, 1}N），并假设 n可以从 N(n)推导得出。在这种情况下，一
个针对 X(n)的在线采样器 S(·)也以 N作为输入，并满足 S(1N, x≤i−1) ≡(
Xi | x≤i−1)。如果存在一个在多项式时间（即poly(N)）内运行的在线采样器 S
用于 X，则称 X= X(n)是可高效在线采样的。当 n从上下文中明确时，我们可能省略 1N，直接写作 S(x≤i−1)。

定义12（随机变量序列的篡改算法）

设X=(X1,…, Xn)为任意联合分布。
我们称一个（可能是随机化的，甚至是计算上无界的）算法Tam为 X的一个
（在线）篡改算法，如果对于任意有效前缀 x ≤i−1 ∈ValPref(X)，Tam(x≤i−1)
总是输出 xi，使得 x ≤i ∈ValPref(X)。

如果 X= X(n)是来自由 n索引的向量族中的一个向量，我们称 Tam为 X的一个高效篡改算法，如果它在 poly(N)时间内运行，其中 N= N(n)是向量 X的总比特长度
（即(X1,…, Xn) ∈{0, 1}N）。

注意，在定义12中，我们只允许篡改算法生成联合分布支撑集中的内容。

定义13（随机变量序列上的概率树）

设X=(X1,…, Xn)为任意联合分布。我们
称函数ρ: ValPref(X) →[0, 1]为在 X上的一个概率树。对于 0 ≤ p ≤ q ≤ 1，若对所有 x≤i ∈ValPref(X)均有 ρ(x≤i) ∈[p, q]，则称ρ[·]为在 X上的一个[p, q]-概率树。
若对所有 x≤i ∈ ValPref(X)均有 ρ[x≤i]= p，则称 ρ[·]为在 X上的 p-概率树。

现在我们定义一个实际“篡改游戏”的结果，其中篡改算法可以根据在 X
上定义的某个概率树，对联合分布X=(X1,…, Xn)进行篡改。

定义14 (ρ-篡改下的分布变体)

设 X=(X1,…, Xn)为任意联合分布，且设
ρ[·]为在 X上的概率树。我们说，对于 X的篡改算法Tam通过 ρ-篡改攻击从
X生成 Y，如果 Y=(Y1,…, Yn)是按如下方式归纳采样的：给定任意有效前
缀 y≤i−1 ∈ ValPref(Y)，我们将通过以下过程对 Yi进行采样：
–以概率 1 − ρ[y≤i−1]，从(Xi | X≤i−1= y≤i−1)中采样 Yi；–以概率 ρ[y≤i−1]，采样 Yi←Tam(y≤i−1)。
等价地，根据定义3，对于所有 y≤i−1 ∈ ValPref(Y)，我们有(Yi |y≤i−1)=(
1 − ρ[y≤i−1]) ·(Xi | X≤i−1= y≤i−1)+ ρ[y≤i−1] · Tam(y≤i−1)。在这种情况下，我们也称 Y为 ρ的篡改变体。如果 ρ是常值函数 p，我们称Y为 p的篡改变体，并称Tam通过 p-篡改攻击从 X生成 Y。
请注意，即使我们最终从“未篡改”的 Xi分布中采样Yi（这种情况发生的
概率至少为 1−ρ[x≤i−1]），我们仍然会在可能被篡改的前缀(y1,…, yi)条件下对
Xi进行采样。换句话说，如果篡改算法产生了结果，它将完全替换该篡改块，
并且后续采样将如同块的历史来自未篡改序列 X1,…, Xi一样继续进行。对于 Xi
为独立分布的特殊情况（例如，当 X是在某个集合 Σn上的均匀分布），我们将不需要执行此操作。
前缀仍然有效。注意，由于在定义14中，算法 Tam是 X的一个（有效）篡改算法，因此所有生成的前缀仍将保持有效
分块 p‐Tampering攻击 259
对于 X，我们将有 ValPref(Y) ⊆ValPref(X)。事实上，如果对于所有 ρ[x≤i]< 1
的 x≤i ∈ValPref(X)，我们得到 ValPref(Y)=ValPref(X)。一个比定义12更一般的篡改算法定义可以使用更大的支撑集 Z ，其中 ValPref(X) ⊂ Z ，并且仅要求篡改算法生成的前缀属于 Z。然而，由于本文的主要贡献在于给出攻击，通过限制我们的模型要求攻击者始终停留在 ValPref(X) 中，只会使我们的结果更强。

备注1（高效篡改与高效采样）

请注意，高效篡改仅指算法Tam在多项式时间内运行的情况，即使X及其由Tam生成的变体不是高效可采样的，该概念依然适用。另一方面，根据标准术语，如果能够高效地同时全部采样 X的各个块，
则称 X是高效可采样的。当然，如果 X是高效在线可采样的，并且Tam对 X
也是一种高效篡改，则篡改攻击Tam所产生的 X的变体 Y也显然是高效在线可采样的。但我们强调，这仅仅是获得 Y的高效采样器的一种特定方式，因此我们篡改攻击的效率不应与最终分布 Y的简单高效可采样性相混淆。

备注2（一个替代定义）

定义14的一个替代变体可能会“增强”篡改算法 Tam的能力，使其现在能够在将原始样本xi替换为其他内容之前先接收到该
“原始”样本。具体来说，我们首先采样 xi ←(Xi | y≤i−1)，然后以概率 1 − p令 yi= xi，以概率 p令 yi= Tam(y≤i−1, xi)。这一定义适用于对手能够看到初始样本后，再决定是否对其进行修改的场景。然而，只要满足以下任一条件：(1) 允许篡改是低效的；或 (2) X是可高效在线采样的，则在此替代定义下的篡改攻击能力与定义14下的篡改攻击能力相同。原因如下：首先注意到，Tam(y≤i−1, xi)始终可以忽略额外输入 xi。反向而言，假设Tam′是在替代定义下的一个篡改算法，而假设篡改算法Tam(y≤i−1)仅被给予 y≤i−1。如果
Tam可以获得一个样本 x′ i ←(Xi | y≤i−1)，那么它也可以模拟Tam′(y≤i−1, x ′ i) 的行为。有趣的是，尽管 xi和 x′ i可能是不同的样本，这种由Tam对Tam′(
y≤i−1, x ′ i)的模拟仍会产生相同的最终分布。

现在我们定义，对于一个篡改对手而言，在对函数输出产生偏置的同时，还能对概率变化保持鲁棒性，这意味着什么。

定义15（用于偏置实函数的鲁棒 p‐篡改攻击）

设X=(X1,…, Xn)为一个联
合分布， f: Supp(X) → R为一个实函数，且Tam是针对 X的篡改算法。
–对于概率树 ρ上的 X，我们说 Tam是一个 ρ-篡改攻击，使得 f(X)的偏置至少为 δ，如果 Tam通过 ρ-篡改攻击从 X生成 Y，并且 E[f(Y)] ≥ E[f(X)]+ δ。
–对于 p ∈[0, 1]，我们说Tam是对 f(X)至少产生 δ偏置的 p-篡改攻击，如果 Tam是对常数概率树 ρ[x≤i]= p上 f(X)至少产生 δ偏置的 ρ-篡改攻击。–我们说Tam是对于 f(X)至少产生 δ偏置的鲁棒 p-篡改攻击，如果对于 X上的每一个[p, 1]-概率树 ρ，Tam都是对 f(X)至少产生 δ偏置的 ρ-篡改攻击。

3.1主要结果：有界函数的分块 p‐Tampering

现在，我们准备介绍关于通过高效分块 p‐篡改攻击来偏置实函数的主要结果。
接着，我们将描述在计算无界环境中相关的结果，其中篡改算法Tam不一定是多项式时间的。我们研究计算无界环境的主要动机是理解能够实现的偏置程度的局限性。然后，我们将描述这些结果在针对候选随机性提取器（针对多个源或SV源的变体）的 p篡改攻击中的应用。

定理4（有界实值函数的高效分块 p‐篡改）

设 X=(X1,…, Xn)为一个联合
分布， f: Supp(X) →[−1,+1]是定义在Supp(X)上的实值输出函数。则存在一个针对 X的篡改算法Tam，满足： 1. （偏置）Tam是一种鲁棒的 p-篡改攻击，使得 f(X)的偏置至少为 p
Var[f(X)]。此外，如果函数 f: Supp(X) →{−1,+1}是布尔函数，则该偏置至少为 p 2+2p · Var[f(X)]。2. （效率）此外，若可获得对任意在线采样器 S(·)
的预言机访问，用于 X和 f(·)，则 Tam可被高效实现。特别是，仅需两个样
本 y 1 i, y 2 i ← S(y≤i−1)时，Tam(y≤i−1)通过使用一个仅依赖于 ˆf[y≤i−1, y 1 i]的有
偏硬币，在 y 1 i, y 2 i之间进行选择。这种有偏硬币可通过进一步调用 S(·)和一次调用 f(·)高效采样得到。
参见第 5节（特别是第5.1节）中定理 4 的完整证明。
定理 4将之前关于 [1]从逐位到分块p‐篡改的结果进行了推广。我们还得到了偏置 Ω（p），尽管常数因子更差。此外，对于布尔函数的情况，我们再次将之前关于 [1]逐位p‐篡改的结果推广到了分块 p‐篡改。
攻击者在定理4中的效率特性的重要性。正如我们将在下面的定理 5中看到的，对于布尔情况，我们可以获得比 p · Var[f(X)]/4 更优的偏置界，然而，我们在定理 4中指出这一点的原因是，该结果附带了定理 4中指定的效率特性（而我们下面的定理 5则不具备这一点）。如前所述，定理 4中的攻击者仅需为下一
个篡改块 Xi获取两个诚实生成的样本{y 1 i , y 2 i} 并从中选择一个。有趣的是，
这意味着如果篡改算法实际上获得了块 Xi的一个“初始真实值” xi（例如，在随机化
分块 p‐Tampering攻击 261
算法）则篡改算法基本上只能选择保留 xi或将其替换为来自 Xi的另一个新鲜样本。当对手能够“重置”块 Xi的采样过程时，这是一种自然的攻击策略。

偏置鞅

定理4的一个有趣特例是当联合分布X=(X1, . . . , Xn)是一个鞅（即
Xi ∈ R且 E[Xi |ˆx≤i−1]= xi−1）且 f(X) = Xn ∈[−1,+1]时。在这种情况下，有 f[x≤i]=xi成立，因此我们定理4中的攻击者变得极为简单：给定任意两
个样本 yi1, yi2 ←(Xi | y≤i−1)，Tam(y≤i−1)以仅依赖于 yi1的概率选择 yi= yi1，否则选择 yi= yi2。注意，这里不再需要调用在线采样器或 f(·)！此外，这种简
单的攻击不仅能对最终值 Xn= f(X)产生偏置，而且还能对每一个其他的 Xi
产生偏置。原因是如果我们定义 fi(X≤i) = Xi ∈[−1,+1]，那么在对 fi(·)进行偏置时，攻击者算法与对 fn(·) = f(·)进行偏置时完全相同。因此，我们的攻击
生成了一个 p‐篡改变体 Y，它对每个块 i ∈[n]同时实现了偏置 Yi ≥ Xi+(p/7) ·
Var[Xi]。此外，如果该鞅是可在线采样的，则该 p‐篡改是高效的。

仅篡改部分随机性

定理4中的攻击者选择两个样本{yi1, yi2}中哪一个用于块 Xi的具体方式，使我们能够将该攻击推广到仅对部分随机性进行篡改，并且后续的部分随机性 R也被用于计算 f的场景。正如我们将看到的，这一推论对于通过所谓的“定向投毒”攻击来攻击随机化学习器也将非常有用。

推论2 （偏置有界‘随机’函数）

设 X=(X1,…, Xn)为一个联合分布， R为另一
个分布，且 f: Supp(X ×R) →[−1,+1]。对于任意固定的 x← X，令 g(x)= Er←R[f(x, r)] ∈[−1,+1]。则存在一个篡改算法 Tam作用于 X（不接收 R），使得：
1. （偏置）Tam是一种鲁棒的 p-篡改攻击，可使 g(X)偏离 ≥ p 3+4p ·Var[g(X)]。2.
（效率）若能通过预言机访问任意在线采样器 S(·)来获取 X和 f(·, ·)，则 Tam可被高
效实现。具体而言，Tam(y≤i−1)再次通过调用 S(·)若干次、一次调用 f(·, ·)以及从 R 中抽取一个样本，来在两个样本 y 1 i、 y 2 i ← S(y≤i−1)之间进行选择。

证明（使用定理4证明推论2）

为了从定理4推导出推论2，我们将定理4直接应用于函数 g(x) = Ef(x, R)，并依赖定理4效率部分中指定的性质来推导新攻击者的效率。我们所需要的是在尝试偏置 g时，提供一个来自分布 Z的样本
（用于在y 1 i、 y 2 i ← S(y≤i−1)之间进行选择）。为此，我们可以首先使用 S(·)采
样 x←(X | y≤i−1, y 1 i)，然后使用一个样本 r← R输出 Z← f(x, R)。根据期
望的线性性，即使我们并未真正计算 g(x)，这种仅使用一个 r← R来采样 Z
的方法，对于（平均）函数 g也具有所需的性质。

以下定理针对布尔函数这一重要特殊情况给出了更好的偏置界。缺点是，
攻击者效率较低，并且需要向在线采样器 S(·)提出更多查询。5

定理5（针对布尔函数的偏置攻击）

设 X=(X1,…, Xn)为一个联合分布，
f: Supp(X) →{+1,−1}为定义在Supp(X)上的一个布尔函数，且 μ= E[f(
X)]。假设 S是 X的一个采样器，并设 N为 X=(X1,…, Xn) ∈{0, 1}N的总二
进制长度的上界， ε< 1为一个输入参数。则存在一个针对 X的篡改算法 Tam，满足：
1. （偏置）Tam是一种鲁棒的 p-篡改攻击，通过 ≥ p(1−μ2 ) 2−p(1−μ) −ε 6
1+μ对 f(X)施加偏置。 2. （效率）此外，若给定对任意在线采样器 S(·)的预言机访问，其中 X和 f(·)可高效实现，则 Tam可在时间 poly(N/ε)内实现。因此，若 ε ≥1/poly(N)， X可高效在线采样，且 f是高效的，则 Tam也是高效的。
我们通过来自[1]的攻击思想来证明我们的定理5，同样适用于布尔情况。
简而言之，我们遵循相同的“贪婪”方法，但在分块设置中对该攻击的分析变得更加困难，且我们不再能在平衡情况下获得+p相同的偏置。事实上，在分块设置中为平衡函数实现+p的偏置通常是不可能的！关于定理5的完整证明，请参见完整版本。

备注3 （鲁棒性与 p-无知性）

请注意，在定理5和4中，攻击者是具有鲁棒性的，即它们对所有[p, 1]概率树均有效（也就是说，它们仅依赖于每个块发生篡改的最低概率下界 p）。然而，不应将攻击者的这一特性与我们攻击者的另一个方面混淆，即它们是 p-无知的，这意味着篡改算法Tam不依赖于知道 p两者中的任何一个。综合这两点意味着，定理4和5中的攻击者可以独立于最终发生随机性篡改的概率树 ρ而生成，并且所获得的偏置质量仅取决于各块可被篡改时所有概率的最小值。

5样本复杂度度量是我们的偏置攻击在某些应用中的一个重要因素。例如，通过定向投毒攻击来破坏学习算法的可靠性时，攻击者的样本复杂度就转化为在发生篡改时需要多少“新鲜”数据来替换原始训练样本。6对[1]中贪婪攻击的分析表明，偏置程度至少为
p ·(1−|μ|)。我们的界依赖于 1−μ 2而非 1−|μ|。其原因在于我们对输出为 −1或+1的概率采用了更精确的近似。

计算上无界 p‐篡改。人们可能会好奇分块 p‐篡改攻击的能力的“潜力”和“局限性”是什么。尽管本文主要关注计算上有界的情况，我们还研究了计算上无界p‐篡改攻击的能力与局限性。展示无界模型中攻击者的能力可能最终有助于设计出更高效的攻击者，而在此模型中证明其局限性也意味着对高效篡改算法的强有力限制。在本文完整版本中，我们表明定理5中更好的偏置界也可以应用于有界实函数，但这需要一个低效的 p‐篡改算法，而如何高效地实现该偏置界仍是一个开放问题。或许令人惊讶的是，我们还表明，在某些块源上的平衡函数中，即使是低效的p‐篡改攻击所能达到的最佳偏置也小于 0.7p。这与逐位 p‐ 篡改模型形成对比，在后者中 p通常是最佳可能偏置。更多细节请参见完整版本。

4 p‐篡改偏置攻击的应用

在本小节中，我们将描述分块 p‐篡改有界函数的主要结果在多个不同场景中的一些应用。

4.1 高效的 p‐Tampering攻击对提取器的影响

我们不直接证明定理2，而是通过基于最大散度概念定义SV源的另一种推广形式来证明一个更一般的结果[23]（见定义6），该概念与 p‐篡改变体紧密相关。
直观上，我们将证明：若均匀分布 Un 是 p对于 X的 p ≈ γ‐篡改变体，则 p是一个(, γ)块SV源。接着我们将证明，定理4中的 Y ‐篡改攻击者生成的 X本身正是 O的一个(p)‐篡改变体 Y！我们首先基于最大散度定义块SV源的如下推广形式。

定义16(MD与MMD源)

设 X=(X1,…, Xn)为一个联合分布。对于实数 r ≥ 0，
若联合分布 Y=(Y1,…, Yn)满足Supp(Y)=Supp(X)，并且对所有 i ∈[n],
x<i ∈ValPref(X)，其最大散度 D ∞((Xi | x<i)||(Yi | x<i))至多为r，则称其为(X, r)-最大散度（MD）源。此外，若 X本身也是一个(Y, r) MD源，则称 Y为一个 (X, r)互最大散度（MMD）源。

备注4（基于其他距离度量的源）

上述定义使用最大散度来限制源 Y相对于 “中心”随机过程 X=(X1, . . . , Xn)的“远近”。通过使用其他距离度量和度量方式，可以获得替代的定义。例如，我们也可以定义(X, r) KL源，包含所
有满足 D KL(( Xi | x<i)||(Yi |x<i)) ≤ r的分布 Y。[23]的一个结果（见引理3的第
3部分）表明，任何(X, r)互MD源也是一个(X, r′) KL源，其中 r′= r(2r −1)对
任意r ≤ 1均为 r′ ≤ r 2。

断言1 (MD源与篡改变体)

Y=(Y1,…, Yn)是一个(X, r)-MD源，当且仅当它是 p-篡
改变体，相对于 X在 p= 1 −2−r下成立。

声明2 (MD源 vs. 块SV源)

对于联合分布X=(X1,…, Xn)， Un 是(X, r)-
MD源当且仅当 X是(, − r)块SV源。特别地，如果 X是(Un , − r)-MMD源，则它也是(, − r)-块SV源。

定理 2由上述声明2以及关于从MMD源进行确定性提取不可能性的以下一般结果得出。

定理6（从MMD源中提取器的不可能性）

设 X=(X1,…, Xn)是一个具有高
效在线采样器的联合分布，并设f: Supp(X) →{+1,−1}是一个高效布尔函数。
则存在一个 p-篡改变体 Y，其针对 X，满足： 1. Y是一个(X,p)MMD源。 2.
|E[f(Y)]| ≥Ω(p)。 3. Y
是由一个高效篡改算法Tam生成的。
定理6的前两项表明， f不能是（X,p）MMD源的提取器，无论任何
X=（X1,…, Xn）。此外，可以证明该源 Y也是一个（X,p2）KL源，因为
它是（X,p）互MD源（见注释4）。

攻击者的效率

最后一个条件表明，针对此类 f（作为候选提取器）的 p‐篡改攻击可由一个高效的 p‐篡改攻击者实现。我们强调，此处的效率条件再次至关重要。事实上，如果我们修改定理6的陈述，通过（1）将X=(Z × · · · × Z)限制为独立同分布，更重要的是（2）允许Tam为计算上无界的，则可以从贝吉等人最近关于广义SV源的不可能性结果推导出定理6的这个较弱版本，如下所述。
贝吉等人[6]指出，从广义SV源（定义9）中进行具有 o(1)偏置的比特提取是不可能的，如果（1）对手可利用的所有分布 D ∈ D在字母集 C上具有完全支持，且（2）这些分布 D的张成空间（见定义3）具有满维 |C|。为了将他们的结果应用于MMD源，我们注意到（1）当 Y=(Y1, . . . , Yn)是一个(X, r) MMD源时， Yi的分布具有完全支持（即Supp(Z) = C），以及（2）在任意 y≤i−1条件下， Yi所有可能分布的集合构成一个具有满秩 |Supp(Z)|的多面体。

证明（定理6的证明）

为了证明定理6，我们使用定理4，并依赖于其中 p‐篡改攻击者的一些特定性质。
尽管函数 f是布尔函数，但由于某些细微的技术原因，我们实际上将使用p‐篡改攻击者（来自定理4）来处理实数输出函数。接下来，我们将证明该攻击者具有定理6中列出的性质。
首先注意，不失一般性，我们可以假设 E[f(X)] ≥ 0(否则我们可以使用
−f并使其偏置朝向 +1)。在这种情况下，定理6的第二和第三性质可由Ta
m的主要性质得出，如定理 4中所述。然而，为了得到第一条性质（即它为我们提供了一个 MMD 源），我们需要深入到子小节4中给出的定理 5.1的证明中的实际攻击描述，我们在此也进行描述。该攻击者 Tam（针对真实输出情况）基于一次拒绝采样（构造方法1），并作如下修改：每当篡改算法有机会篡改一个新块时（发生的概率为p），攻击者自身抛掷一枚硬币，并以 0.5 的概率决定不篡改该块，否则将实际执行构造方法1中的一次拒绝采样。因此，在执行 p‐ 篡改攻击期间，实际发生篡改的概率为 p/2。
如上所述，篡改以概率 p/2发生，因此根据断言1， Y是 r ≤lg(1/(1 − p/2))
≤ p(byp ∈[0, 1])的(X, r) MD源。另一方面，一次拒绝采样实际上仅以概率
p/2被使用。因此，对于每一个可能的 y≤i，如果我们令 α=Pr[Xi=yi | y≤i−1]，
则成立Pr[Yi= yi | y≤i−1] ≤(1 −p/2) · α+(p/2) ·(2α) ≤(1+p/2) · α，因为要么以概率 1−p/2没有发生篡改，即使发生了篡改，由于篡改算法对篡改块仅使用两个样本，根据并界，此种情况下采样 yi的概率至多为 2α，这意味着 X是 r ≤lg(1+p/2) ≤ p(by p ∈[0, 1])的(Y, r) MD源。
综上所述， Y确实是一个(X,p) MMD 源 e.

4.2 定向投毒攻击学习器

术语说明

设 D为包含学习问题中所有感兴趣对象的域， C为一类将D中的对象映射到标签集 T的概念函数。对于概念函数c ∈ C，来自集合 D的一个带
标签样本是形如 x=(d, c(d))的对，其中 d ∈ D。我们用Pc={(d, c(d))
| d ∈ D}表示来自 D的所有带标签样本。学习算法 L的目标是在接收一个带
标签样本序列 x=(x1,…, xn)（称为训练序列）后，生成一个假设 h ∈ H，使
得 h能够预测来自 D的给定输入的标签。训练序列中的样本通常通过一个称为训练预言机的预言机 OX(.)从 Pc上的分布 X中独立采样得到。如果使用子集 X ⊆ Pc来评估假设 h的性能，则称其为测试集。

定义17（成本和平均成本）

一个成本函数cost： H × 2Pc→[0, 1]用于衡量假设的质量，且cost(h, X)的值越低，
266 S. 马赫卢吉法尔和 M. 马赫穆迪
在 X中的例子上，算法A的表现越好。我们根据特定的训练预言机，为学习算法 L和测试集 X定义平均成本函数如下：
costOL(X)= E x1,…,xn←O
h←L(x1,…,xn)
[cost(h, X)]
例如，成本函数可能是 X中导致生成错误标签的样本所占的比例。测试集本身可能仅包含一个样本，也可能非常大，以模拟从X中采样等同于从 X中采
样的场景。7