75、大规模增长模型的快速模拟与独立集计数的不可近似性研究-优快云博客

本文链接：https://blog.youkuaiyun.com/seed/article/details/153600532

大规模增长模型的快速模拟与独立集计数的不可近似性研究

大规模增长模型的快速模拟

在大规模增长模型的研究中，我们关注如何高效地模拟模型的增长过程。这里涉及到两个重要的增长模型：转子 - 路由器聚合（Rotor - Router Aggregation）和内部扩散限制聚合（Internal Diffusion Limited Aggregation，IDLA）。

首先，我们有一个关于里程计函数 (u) 的定理：
设 (G) 是有限或无限的有向图，(\rho) 是 (G) 上的一组转子栈，(\sigma_0) 是 (G) 上的芯片配置。固定 (u^ ) 是从顶点集 (V) 到自然数集 (N) 的函数，设 (A^ = \text{supp}(u^ ))，(\sigma^ = \sigma_0 + \Delta_{\rho}u^ )，并且满足以下条件：
- (\sigma^ \leq 1)；
- (A^ ) 是有限的；
- 对于所有 (x \in A^ )，(\sigma^ (x) = 1)；
- (\text{Top}_{\rho}(u^ )) 在 (A^ ) 上是无环的。
那么里程计函数 (u) 是定义良好的，并且 (u^ = u)。

为了确保 (u) 定义良好，通常需要对 (\rho) 和 (\sigma_0) 做一些最小假设。例如，如果 (G) 是无限且强连通的，假设转子栈 (\rho) 是无限的就足够了。

接下来介绍从近似计算到精确计算里程计函数 (u) 的算法，该算法分为三个步骤：
1. 近似步骤 ：
- 根据近似里程计 (u_1) 进行激发操作，计算芯片配置 (\sigma_1 = \sigma_0 + \Delta_{\rho}u_1)。
- 对于每个顶点 (x)，这一步需要 (O(d_{in}(x) + 1)) 的时间，总时间为 (O(#E + #V))。由于我们一次性进行了很多次激发操作（(\sum_{x} u_1(x)) 通常远大于 (#E + #V)），所以这一步实现了加速。最后返回 (\sigma_1)。
2. 消除步骤 ：
- 从 (u_2 = u_1) 和 (\sigma_2 = \sigma_1) 开始。
- 如果 (x \in V) 满足 (\sigma_2(x) > 1)，则称 (x) 为“山丘”；如果 (\sigma_2(x) < 0)，或者 (\sigma_2(x) = 0) 且 (u_2(x) > 0)，则称 (x) 为“洞穴”。
- 对于每个 (x \in Z^2)：
- 如果 (x) 是山丘，通过将 (u_2(x)) 加 1 并将一个芯片从 (x) 移动到 (t(\text{Top}(u_2)(x))) 来激发它。
- 如果 (x) 是洞穴，通过将一个芯片从 (t(\text{Top}(u_2)(x))) 移动到 (x) 并将 (u_2(x)) 减 1 来撤销激发。
- 山丘消失的方式有两种：到达边界上的未占用站点，或者到达洞穴并相互抵消。当没有更多的山丘和洞穴时，返回 (u_2)。
3. 反向循环弹出步骤 ：
- 从 (u_3 = u_2) 和 (A_3 = {x \in V : u_3(x) > 0}) 开始。
- 如果 (\text{Top}(u_3)) 在 (A_3) 上不是无环的，则选择一个循环并对其每个顶点撤销激发一次。这可能会产生额外的循环。
- 更新 (A_3) 并重复上述过程，直到 (\text{Top}(u_3)) 在 (A_3) 上是无环的。最后输出 (u_3)。

下面是这个算法的流程图：

graph TD;
    A[开始] --> B[近似步骤:计算\(\sigma_1 = \sigma_0 + \Delta_{\rho}u_1\)];
    B --> C[消除步骤:处理山丘和洞穴];
    C --> D[反向循环弹出步骤:使\(\text{Top}(u_3)\)无环];
    D --> E[输出\(u_3\)];

在实验结果方面，我们在 (Z^2) 上实现了这两个增长模型的算法。传统的逐步模拟需要二次时间来计算占用簇，而我们的算法运行时间明显更短：转子 - 路由器模型约为 (N \log N)，IDLA 约为 (N^{1.5})。

转子 - 路由器聚合

在经典的转子 - 路由器模型中，转子栈是四个基本方向按逆时针顺序的循环序列。里程计近似的绝对误差 (|u_1 - u| 1 = \sum {x} |u_1(x) - u(x)|) 似乎与 (N) 呈线性关系，这是算法运行时间的一个下界。测量的运行时间显示接近线性的运行时间行为，这表明我们消除山丘和洞穴的多尺度方法相对高效。

转子 - 路由器聚合的渐近形状是一个圆盘。为了衡量集合 (A_N) 与圆盘的接近程度，我们定义了集合 (A \subset Z^2) 的内半径 (r_{in}(A) = \min{|x| : x \notin A}) 和外半径 (r_{out}(A) = \max{|x| : x \in A})，并定义 (diff(N) = r_{out}(A_N) - r_{in}(A_N))。实验发现，对于不同的转子序列（如 WENS、WNSE 和 WNES），(diff(N)) 的增长极其缓慢，似乎是次对数级的，并且不同转子序列的 (diff(N)) 存在系统差异，WNSE 的 (diff(N)) 最低，WNES 居中，WENS 最高。

转子序列	(diff(10^8)) 近似值
WNSE	1.034
WNES	1.623
WENS	1.837

内部扩散限制聚合（IDLA）

在 IDLA 中，转子方向是从四个基本方向中独立且均匀随机选择的。在算法的步骤 2 和 3 中，同一个转子可能会被多次请求，因此需要能够每次都生成相同的伪随机值。我们采用了类似于 Moore 和 Machta 的方法，只存储随机数生成器的某些种子值，并在需要时在线生成随机游走步骤。

我们的算法在 IDLA 上的运行时间约为 (N^{1.5})，而通过串行模拟 (N) 个随机游走构建大小为 (N) 的 IDLA 簇的预期时间为 (O(N^2))。外半径和内半径之差 (diff(N)) 的期望值随 (N) 呈对数增长，标准偏差大小近似恒定，不随 (N) 增长，这与高斯自由场的联系是一致的。

硬核模型中独立集计数的不可近似性

我们研究了具有最大度 (\Delta) 的图的独立集近似计数的计算复杂性。对于输入图 (G = (V, E)) 和活动参数 (\lambda > 0)，我们关注的量 (Z_G(\lambda)) 定义为所有独立集 (I) 的加权和，即 (Z_G(\lambda) = \sum_{I \in I(G)} \lambda^{|I|})，在统计物理学中，(Z_G(\lambda)) 是硬核模型的配分函数。

精确计算图的独立集数量是 #P 完全的，因此我们专注于近似计算配分函数。Weitz 给出了对于最大度为 (\Delta) 的图，当 (\Delta) 为常数且 (\lambda < \lambda_c(T_{\Delta}) := (\Delta - 1)^{\Delta - 1} / (\Delta - 2)^{\Delta}) 时的 FPAS。而 Sly 证明了，除非 (NP = RP)，对于每个 (\Delta \geq 3)，存在一个函数 (\varepsilon(\Delta) > 0)，使得当 (\lambda_c(T_{\Delta}) < \lambda < \lambda_c(T_{\Delta}) + \varepsilon(\Delta)) 时，不存在高效的随机近似算法。

我们几乎解决了一个猜想，即证明了除了 (\Delta \in {4, 5}) 之外，对于所有 (\lambda > \lambda_c(T_{\Delta})) 都不存在高效的随机近似算法：
- 当 (\Delta = 3) 且 (\lambda > \lambda_c(T_3) = 4)；
- 当 (\Delta \geq 6) 且 (\lambda > \lambda_c(T_{\Delta}))；
- 当 (\Delta = 4) 且 (\lambda \in (1.6875, 2.01538] \cup (4, +\infty))；
- 当 (\Delta = 5) 且 (\lambda \in (256/243, 1.45641] \cup (1.6875, 2.01538] \cup (4, +\infty))。

Sly 的工作利用了 Mossel 等人对 Glauber 动力学的研究。Glauber 动力学是一个简单的马尔可夫链，用于从吉布斯分布中采样，从而近似配分函数。其转移过程如下：
- 从顶点集 (V) 中均匀随机选择一个顶点 (v)。
- 以概率 (\lambda / (1 + \lambda)) 将 (v) 加入当前独立集 (X_t)，以概率 (1 / (1 + \lambda)) 将 (v) 从 (X_t) 中移除，得到 (X’)。
- 如果 (X’) 是独立集，则 (X_{t + 1} = X’)，否则 (X_{t + 1} = X_t)。

Mossel 等人证明了，当 (\lambda) 满足 (\lambda_c(T_{\Delta}) < \lambda < \lambda_c(T_{\Delta}) + \varepsilon(\Delta)) 时，对于最大度为 (\Delta) 的图，Glauber 动力学是缓慢混合的。我们通过对随机正则图中独立集的更详细分析，改进了 Mossel 等人的结果，特别是将结果扩展到 (\Delta = 3) 时的所有 (\lambda > \lambda_c(T_3))。

为了正式陈述我们关于随机正则图独立集的结果，我们对独立集进行了划分：
对于二分图 (G = (V_1 \cup V_2, E))，其中 (|V_1| = |V_2| = n)，对于 (\delta > 0)，
- (I_{\delta}^i = {I \in I(G) : |I \cap V_i| > |I \cap V_{3 - i}| + \delta n}) 表示不平衡且“偏向” (V_i) 的独立集。
- (I_{\delta}^B = {I \in I(G) : |I \cap V_i| \leq |I \cap V_{3 - i}| + \delta n}) 表示近乎平衡的独立集。

设 (G(n, \Delta)) 是由 (\Delta) 个随机完美匹配组成的二分图的概率分布，我们的结果在 (G(n, \Delta)) 上渐近几乎必然成立，并且也适用于二分 (\Delta) - 正则图的均匀分布。

下面是硬核模型相关研究的总结表格：
| 研究内容 | 结果 |
| ---- | ---- |
| Weitz | 当 (\Delta) 为常数且 (\lambda < \lambda_c(T_{\Delta})) 时，给出 FPAS |
| Sly | 当 (\lambda_c(T_{\Delta}) < \lambda < \lambda_c(T_{\Delta}) + \varepsilon(\Delta)) 时，除非 (NP = RP)，不存在 FPRAS |
| 本文 | 除 (\Delta \in {4, 5}) 外，对于所有 (\lambda > \lambda_c(T_{\Delta})) 不存在 FPRAS |

大规模增长模型的快速模拟与独立集计数的不可近似性研究

大规模增长模型算法的优势与应用场景分析

上述提到的大规模增长模型的快速模拟算法具有显著的优势，下面我们详细分析其优势以及适用的应用场景。

算法优势总结

运行时间显著缩短 ：传统的逐步模拟需要二次时间来计算占用簇，而我们的算法在不同模型中都有更好的表现。转子 - 路由器模型约为 (N \log N)，IDLA 约为 (N^{1.5})。这使得在处理大规模数据时，算法的效率得到极大提升。
多尺度方法高效 ：在转子 - 路由器聚合中，里程计近似的绝对误差与 (N) 呈线性关系，测量的运行时间显示接近线性的运行时间行为，表明消除山丘和洞穴的多尺度方法相对高效。
适应性强 ：对于不同的模型，如转子 - 路由器模型和 IDLA，算法都能有效应用，并且在不同的转子序列下也能展现出不同的特性，为实际应用提供了更多的选择。

应用场景分析

应用场景	适用模型	原因
物理模拟	转子 - 路由器聚合、IDLA	可以快速模拟粒子的扩散和聚集过程，如气体分子的运动、晶体的生长等。
网络分析	转子 - 路由器聚合	可用于分析网络中信息的传播和扩散，例如社交网络中消息的传播、计算机网络中数据包的路由等。
随机过程研究	IDLA	能够高效地模拟随机游走和聚集过程，为随机过程的研究提供了有力的工具。

硬核模型中独立集计数不可近似性的深入探讨

我们已经了解了硬核模型中独立集计数的不可近似性结果，下面进一步探讨其背后的原理以及对实际应用的影响。

不可近似性原理分析

Sly 的结果以及我们的改进证明都基于 Glauber 动力学的性质。Glauber 动力学是一个简单的马尔可夫链，用于从吉布斯分布中采样。当 (\lambda) 满足一定条件时，Glauber 动力学是缓慢混合的，这意味着从初始状态到接近平稳分布需要指数级的时间。

我们通过对随机正则图中独立集的更详细分析，改进了 Mossel 等人的结果。具体来说，我们使用了一种稍微不同的配分函数二阶矩的参数化方法，引入了对称性，使得证明更加简单。这种改进使得我们能够将不可近似性结果扩展到更广泛的参数范围。

下面是 Glauber 动力学的流程图：

graph TD;
    A[开始] --> B[选择顶点\(v\)均匀随机];
    B --> C[以概率\(\lambda / (1 + \lambda)\)加入\(v\)，以概率\(1 / (1 + \lambda)\)移除\(v\)得到\(X'\)];
    C --> D{ \(X'\)是否为独立集 };
    D -- 是 --> E[ \(X_{t + 1} = X'\) ];
    D -- 否 --> F[ \(X_{t + 1} = X_t\) ];
    E --> G[结束];
    F --> G;