30、深入探讨复杂度相关概念

最新推荐文章于 2025-11-04 14:15:05 发布

tequila

最新推荐文章于 2025-11-04 14:15:05 发布

阅读量41

点赞数

CC 4.0 BY-SA版权

分类专栏：信息驱动的机器学习文章标签：复杂度柯尔莫哥洛夫复杂度 VC维

本文链接：https://blog.youkuaiyun.com/tequila/article/details/151573357

信息驱动的机器学习专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深入探讨复杂度相关概念

1. 复杂度与可预测性

在计算机科学中，可预测性能够通过更好地利用缓存或其他硬件优化技术来提高执行速度。从理论上来说，我们为运行时间估计赋予了单位，也就是基于输入的比特数来计算实现目标所需的二进制决策的阶数。

对于精确结果（而非近似结果），我们需要读取整个输入，$O(C(s))$ 就是必须做出的最小二进制决策数。当 $n$ 不断增大时，如果字符串中的字符是均匀分布的，熵项 $-\sum_{i = 1}^{|\Sigma|} p_i \log_2 p_i$ 才是一个常数。

例如，若 $s$ 是一个开头为单个 “1” ，后面跟着可能无限个 “0” 的二进制字符串，在不同 $n$ 值下熵项的结果如下：
| $n$ 值 | 熵项结果（比特） |
| ---- | ---- |
| 2 | 1 |
| 10 | 0.47 |
| 100 | 0.08 |
| 10000 | 0.0015 |

定义 B.2 是计算机科学中更通用但不太精确的大 O 符号的自然特例。在不了解字符分布的情况下，我们假设处于平衡状态，即字符均匀分布，此时复杂度项可以作为假设常数 $M$ 的一部分。如果知道字母表中字符的分布，我们就能更准确地估计增长阶数。

字符串复杂度的定义也可用于空间（内存使用）估计，这源于香农熵在通信中的原始定义。

2. 柯尔莫哥洛夫复杂度

一个对象（如一段文本）的柯尔莫哥洛夫复杂度是指在预定编程语言中，能将该对象作为输出的最短计算机程序的长度。它由安德烈·柯尔莫哥洛夫于 1963 年首次提出，是经典信息论的推广。

如果字符串 $s$ 的描述 $d(s)$ 长度最小（即使用最少的比特），则称其为 $s$ 的最小描述 $d_{min}(s)$ ，$d_{min}(s)$ 的长度（即最小描述中的比特数）就是 $s$ 的柯尔莫哥洛夫复杂度，记为 $K(s)$ ，即：
定义 B.3（柯尔莫哥洛夫复杂度） ：$K(s) = |d_{min}(s)|$

柯尔莫哥洛夫复杂度试图从第 4.2 节中提出的一般最小描述长度的概率概念扩展到一个确定性概念，以确定针对一个具体字符串（而非所有可能输入）的最优程序。然而，柯尔莫哥洛夫复杂度是不可计算的。

定理 B.1（柯尔莫哥洛夫复杂度不可计算） ：不存在一个程序，能以任意字符串 $s$ 为输入，并输出整数 $K(s)$ 。
证明：假设存在一个函数 $K(x)$ 能返回 $x$ 的柯尔莫哥洛夫复杂度。可以编写一个程序，逐个测试所有可能的字符串，直到找到一个 $K(x) > 100$ Mb 的字符串。这可以通过嵌套循环实现：外层循环表示字符串的比特数，从 1 到 $\infty$ ；内层循环创建所有 $k$ 比特的字符串，从 0 开始逐个递增，直到 $2^k - 1$ ，即 0, 1, 00, 01, 10, 11, 000, 001, … 。这样的程序可以用远小于 100 Mb 的代码编写。但这与 $K(x)$ 的结果相矛盾，因为我们编写了一个程序来打印复杂度为 100 Mb 的第一个字符串，但程序本身小于 100 Mb ，所以该程序无法生成该字符串，因此 $K(x)$ 不存在。

让我们通过一个著名的例子来分析柯尔莫哥洛夫复杂度不可计算的原因。生成曼德勃罗集的柯尔莫哥洛夫复杂度非常低（约 15 行代码），但计算负载非常高（通常每个像素约 200 - 1000 次迭代）。使用无损压缩对分形进行压缩后生成的字符串比生成它的代码还要长。例如，图 B.1 作为 PNG 文件，分辨率为 1.1 Mpixels ，每个像素约 8 比特（调色板索引），占用约 7.35 Mb 。这是因为曼德勃罗集的分形维度为 2 ，其复杂度在二维空间中是最大的。因此，任何压缩都需要使用每个像素的几乎所有比特（这里是每个像素 6.68 比特）。不过，解压缩压缩后的图像比使用柯尔莫哥洛夫复杂度的程序生成该分形要快得多。而且，图 B.1 很难还原为其生成代码，因为可能有无限多种实现方式可以生成相同的图像。

柯尔莫哥洛夫复杂度与计算复杂度无关，一个具有柯尔莫哥洛夫复杂度的程序可能非常小，但计算某个对象或字符串可能需要很长时间。忽略计算复杂度后，确定柯尔莫哥洛夫复杂度就变成了一个关于描述原始字符串所用语言的语法和语义效率的问题。然而，比较不同编程语言的描述长度可能非常困难，因为不仅可以缩短编程语言的指令词，而且不同指令的语义也不同。例如，已知可以将所有编程简化为一个单一指令，但哪种指令效果最好并没有定论，它们在平均情况下表现相同，而这个平均情况可以由字符串的熵来确定。

总之，虽然可以一般地定义复杂度，但总能找到比预期更小（或更大）的例子。因此，复杂度必须在所有可能字符串的整个空间中进行讨论，而不能针对单个字符串进行讨论。

压缩与柯尔莫哥洛夫复杂度相关，我们可以压缩一个字符串 $s$ ，并在其前面添加解压缩算法（实际上创建了所谓的自解压存档）。一种通用方法最多可以产生字符串中每个字符的香农熵（定义 4.8）比特数，再加上解压缩算法程序长度的常数比特数。在这个思想实验中，解压缩算法不必是通用的，因为柯尔莫哥洛夫复杂度只涉及一个字符串，而且它可以花费几乎无限的时间。

综上所述，柯尔莫哥洛夫复杂度表明，我们永远无法预测能够重现训练表中编码函数的精确最小模型大小，更不用说对该函数进行泛化了。我们可以使用内存等效容量（定义 5.5）来定义一个上限，并应用相关技术进行近似估计，类似于用自解压存档对柯尔莫哥洛夫复杂度进行上界估计。

3. VC 维

Vapnik 和 Chervonenkis 提出的 Vapnik - Chervonenkis（VC）维是机器学习理论中一个广泛认可的容量度量。

定义 B.4（VC 维） ：假设空间 $f$ 的 VC 维 $D_{VC}$ 是最大的整数 $D = D_{VC}$ ，使得存在一个基数为 $D$ 的数据集可以被 $f$ 打散。被 $f$ 打散意味着任何任意的二进制标记都可以由 $f$ 中的一个假设来表示。如果没有最大值，则 $D_{VC} = \infty$ 。例如，1 - 最近邻的 $D_{VC} = \infty$ ，因为没有最大数量的点可以被标记。

VC 维的定义有两个主要注意事项：
1. 与内存等效容量（MEC）类似，它只考虑完美的机器学习器，而忽略了优化算法中的不完美之处，甚至忽略了正则化函数导致的有意损失。
2. 最重要的是，只需要提供一个数据集的例子来匹配 VC 维即可。也就是说，VC 维与柯尔莫哥洛夫复杂度一样，是一个轶事性的度量，而不是对特定大小的所有可能数据集的一般度量。

内存等效容量和 VC 维有直接联系。根据定义 5.5 ，当机器学习器能够表示 $n$ 个点的所有 $2^n$ 个二进制标记函数时，模型的智力容量与 $n$ 比特的内存等效。如果训练表表示一个均匀分布的输入映射到平衡的二进制标签的函数，并且模型能够记住 $n$ 行（但不能记住 $n + 1$ 行）的表，则 $D_{VC} = n = MEC$ 。这是因为记住这样的表需要 $2^n$ 次打散，所以 $D_{VC} = n$ ，根据定义，$MEC = n$ 比特。如果表中的互信息大于 0 ，即函数可以在一定程度上进行泛化，并且给定的模型可以表示 $n$ 行的所有 $2^n$ 个二进制标记函数（但不能表示 $n + 1$ 行），则模型的 VC 维 $D_{VC} = n$ ，但 $MEC < n$ ，因为 MEC 的定义要求能够表示 $n$ 比特的所有可能函数。互信息较低的函数需要更高的容量来表示。

MEC 的优点是能够处理非二进制分类和回归，只要信息内容可以用比特来衡量。而且 MEC 永远不会是无限的，因为训练表中只有有限数量的实例可以被记住。

4. 香农熵作为衡量信息的唯一方式

香农熵在相关内容中被引入并贯穿始终，它通常作为一个额外的成本/奖励函数，用于平衡不平衡状态。人们常常会问，是否可以用另一个成本函数来实现这种平衡。直观上，信息可以有多种定义方式，认为香农熵是唯一的解决方案似乎有些牵强。毕竟，统计学中还有其他定义信息的度量方法，如 Fisher 信息。

Claude Shannon 本人面对这个问题时，提出了 4 条公理来刻画应该用于量化信息的函数：
1. 概率为 100% 的事件完全不出人意料，因此产生 0 信息。
2. 事件发生的概率越小，它就越令人惊讶，产生的信息也就越多（单调性）。
3. 如果分别观察两个独立事件，总信息量是各个事件自信息的总和。

有人反对这些公理，认为事件永远不会真正独立。然而，在标准的机器学习过程中，除非对基于时间的数据进行建模，否则我们假设训练样本是独立的。

Shannon 证明了，在一个乘法缩放因子的范围内，只有一个唯一的概率函数满足这三条公理。大致来说，给定一个大于 1 的实数 $b$ 和一个概率为 $P$ 的事件 $x$ ，定义信息内容的唯一方法是：$H(x) := -\log_b (P)$ 。熵函数的这种唯一性可能与它与物理功/能量的联系有关。

随机变量 $X$ 的香农熵定义为 $H(X) = \sum_{i = 1}^{n} p_i \log_b p_i$ ，这与之前的讨论一致。根据定义，它等于对 $X$ 进行测量的预期信息内容，因为每个事件的信息内容 $\log_b p_i$ 乘以其预期发生频率 $p_i$ 。

然而，这种推广并不是唯一的。Alfréd Rényi 指出了这一点，他在保留独立事件可加性（公理 3）的前提下，寻找最通用的信息量化方法。最终结果非常简单：

定义 B.5 ：阶数为 $\alpha$（$\alpha \geq 0$ 且 $\alpha \neq 1$ ）的 Rényi 熵定义为：
$H_{\alpha}(X) = \frac{1}{1 - \alpha} \log (\sum_{i = 1}^{n} p_i^{\alpha})$

这里，$X$ 是一个离散概率函数，可能的结果集合为 $\Sigma = {x_1, x_2, \ldots, x_n}$ ，相应的概率 $p_i \to Pr(X = x_i)$ ，$i = 1, \ldots, n$ 。对数通常以 2 为底。

当 $\alpha = 0$ 时，$H_0 = \log |\Sigma|$ ，其中 $\Sigma$ 是结果的字母表。
当 $\alpha = 1$ 时，Rényi 熵等于香农熵，即 $H(X) = \sum_{i = 1}^{|\Sigma|} p_i \log_b p_i$ 。
当 $\alpha = 2$ 时，Rényi 熵等于所谓的碰撞熵 $H_2(X) = -\log \sum_{i = 1}^{n} p_i^2 = -\log P(X = Y)$ 。

在以 2 为底的情况下，$H_2$ 指定了两个具有相同概率分布的独立随机变量之间预期重叠的信息比特数，即两个分布巧合具有相同值的次数。更可能的值更有可能发生碰撞。例如，考虑两个公平硬币，每个硬币相互独立且分布相同，对于每个事件（正面 $H$ 和反面 $T$ ），$p_i = \frac{1}{2}$ 。因此，碰撞熵 $H_2 = -\log_2(\frac{1}{2}^2 + \frac{1}{2}^2) = 1$ 比特，这是正确的，因为在 4 个等分布状态 ${HH, HT, TH, TT}$ （即 $\log_2 4 = 2$ 比特信息）中，$HH$ 和 $TT$ 这两个状态显示硬币值相同，即 $\log_2 2 = 1$ 比特。对于非均匀分布，这种情况可能不太直观。

这种巧合重叠的考虑在密码学中很重要，因为攻击的第一步是分析加密消息的分布。问题是，通过以相同分布进行猜测可以提取多少比特信息。直观上，我们可以将 $\alpha$ 视为抛硬币的数量。当 $\alpha = 1$ 时，我们询问的是同一随机变量内的重复观察量；当 $\alpha > 1$ 时，我们询问的是几个独立但相同分布之间的重复观察量。碰撞熵在建模中也很有趣，因为我们可以测量虚假相关性的可能性。当两个变量之间的相关性被认为 “不仅仅是虚假的” 时，通常意味着这两个变量之间存在一些重要的共享信息。如果这两个变量之间的互信息（衡量这种共享信息）大于每个变量的碰撞熵（衡量其固有随机性），那么这可能表明这种相关性不仅仅是由于结果的随机 “碰撞” ，而是由于变量之间存在一些潜在的关系。

为了让对 Rényi 熵的直观理解更具挑战性，$\alpha$ 实际上不必是自然数，这将我们带入了分形几何的领域。

深入探讨复杂度相关概念

5. 复杂度概念的综合分析与应用场景

复杂度相关的概念，如柯尔莫哥洛夫复杂度、VC 维、香农熵等，在不同的领域有着各自独特的应用场景。下面我们通过一个表格来总结它们的特点和应用领域：
| 复杂度概念 | 特点 | 应用领域 |
| ---- | ---- | ---- |
| 柯尔莫哥洛夫复杂度 | 衡量生成对象的最短程序长度，不可计算；与计算复杂度无关 | 数据压缩、算法设计理论研究 |
| VC 维 | 衡量假设空间打散数据集的能力，是轶事性度量 | 机器学习模型容量评估 |
| 香农熵 | 唯一满足特定公理的信息量化方式，有多种衍生形式 | 信息论、密码学、机器学习 |

在数据压缩领域，柯尔莫哥洛夫复杂度为我们提供了理论上的最优压缩界限。虽然它不可计算，但可以通过自解压存档等方式进行近似估计。例如，在处理文本数据时，我们可以尝试找到一种尽可能短的描述（程序）来表示文本，从而实现高效压缩。

在机器学习中，VC 维和香农熵都起着重要作用。VC 维帮助我们评估模型的容量，判断模型是否能够很好地拟合数据。如果 VC 维过高，模型可能会过拟合；如果 VC 维过低，模型可能会欠拟合。香农熵则可以作为损失函数或正则化项，用于平衡模型的复杂度和拟合能力。例如，在分类问题中，我们可以使用香农熵来衡量分类结果的不确定性，从而优化模型的分类性能。

6. 复杂度概念之间的关系

这些复杂度概念之间存在着一定的联系。例如，柯尔莫哥洛夫复杂度和香农熵都与信息的表示和量化有关。柯尔莫哥洛夫复杂度关注的是生成对象的最短程序长度，而香农熵关注的是事件的不确定性和信息含量。在某种程度上，柯尔莫哥洛夫复杂度可以看作是香农熵在确定性程序表示上的一种扩展。

VC 维与香农熵也有一定的关联。在机器学习中，模型的 VC 维越高，通常意味着模型能够表示的函数空间越大，相应地，模型的不确定性也可能越高。而香农熵可以用来衡量这种不确定性。因此，我们可以通过控制模型的 VC 维来调整模型的香农熵，从而实现模型的优化。

下面是一个 mermaid 流程图，展示了这些复杂度概念之间的关系：

graph LR
    A[柯尔莫哥洛夫复杂度] -->|与信息表示有关| C[香农熵]
    B[VC 维] -->|影响不确定性| C[香农熵]
    A -->|理论基础| D[数据压缩]
    B -->|评估模型| E[机器学习]
    C -->|优化模型| E[机器学习]
    C -->|保障安全| F[密码学]

7. 复杂度概念的实际应用案例

为了更好地理解这些复杂度概念的实际应用，我们来看几个具体的案例。

案例一：图像压缩
在图像压缩中，我们可以利用柯尔莫哥洛夫复杂度的思想来寻找最优的压缩算法。例如，对于一张自然风景图像，我们可以尝试找到一种最短的程序来生成这张图像。虽然实际中很难找到真正的最短程序，但我们可以通过一些启发式算法来近似实现。

同时，香农熵也可以帮助我们评估图像的信息含量。如果图像的香农熵较高，说明图像的信息含量丰富，压缩难度较大；反之，如果香农熵较低，说明图像的信息含量较少，压缩效果可能较好。

案例二：机器学习模型选择
在选择机器学习模型时，VC 维是一个重要的参考指标。例如，在一个二分类问题中，我们有两个模型可供选择：模型 A 的 VC 维较高，模型 B 的 VC 维较低。如果训练数据量较小，我们可能会选择模型 B，因为它的复杂度较低，不容易过拟合；如果训练数据量较大，我们可以考虑选择模型 A，因为它有更大的容量来拟合复杂的数据。

香农熵可以作为模型训练过程中的一个监控指标。我们可以计算模型输出的香农熵，观察其变化情况。如果香农熵在训练过程中逐渐降低，说明模型的预测越来越确定，拟合效果越来越好；如果香农熵没有明显变化或反而升高，可能说明模型存在问题，需要进行调整。