基于分层抽样的数据约简解决机会约束问题
在实际的数据处理和优化问题中,处理大规模数据集是一项具有挑战性的任务。特别是在机会约束问题(CCP)中,由于数据集过大,评估所有约束条件满足的经验概率变得十分困难。本文将介绍一种基于分层抽样的数据约简方法,以及如何利用自适应差分进化算法(ADE)高效地解决CCP的松弛问题,并通过洪水控制规划的案例进行验证。
1. 问题提出
在处理CCP时,由于样本空间和随机变量的分布未知,直接求解CCP往往是不可能的。因此,我们通常会使用一个巨大的数据集来经验性地评估概率。然而,这个数据集可能过大,导致评估经验概率的计算量过大。为了解决这个问题,我们提出了一种新的数据约简方法,并结合自适应差分进化算法来高效地解决CCP的松弛问题。
2. 机会约束问题(CCP)的定义
设 $x = (x_1, \cdots, x_D) \in X \subseteq \Re^D$ 是决策变量的向量或解。不确定性由随机变量向量 $\xi = (\xi_1, \cdots, \xi_K) \in \Omega$ 表示。假设样本空间 $\Omega \subseteq \Re^K$ 和 $\xi \in \Omega$ 的分布均未知。CCP 有 $M \geq 1$ 个包含 $\xi \in \Omega$ 的约束条件 $g_m(x, \xi) \leq 0$。所有约束条件都满足的联合概率 $p(x, \Omega) \in [0, 1]$ 定义为:
[p(x, \Omega) = Pr(\forall \xi \in \Omega : g_m(x, \xi) \leq 0, m = 1, \cdots, M)]
其中 $g_m : X \times \Omega \to \Re$,$m = 1, \cdots, M$ 是可测函数。
通过使用充足水平 $\alpha \in (0, 1)$,CCP 可以表述为:
[\min_{x \in X} f(x)]
[s.t. \quad p(x, \Omega) \geq \alpha]
其中 $f : X \to \Re$ 是需要最小化的目标函数。
由于 $\Omega \subseteq \Re^K$ 未知,直接求解上述 CCP 是不可能的。
3. 使用完整数据集的 CCP 松弛问题
假设我们有一个巨大的数据集 $B = {\xi_{\ell}} \subseteq \Omega$ 用于经验性地评估上述概率。对于每个约束条件,定义指示函数为:
[1l(g_m(x, \xi_{\ell}) \leq 0) =
\begin{cases}
1, & \text{如果 } g_m(x, \xi_{\ell}) \leq 0 \
0, & \text{否则}
\end{cases}]
从完整数据集 $B$ 和指示函数,解 $x \in X$ 满足所有约束条件的经验概率评估为:
[\hat{p}(x, B) = \frac{1}{|B|} \sum_{\xi_{\ell} \in B} \left(\prod_{m = 1}^{M} 1l(g_m(x, \xi_{\ell}) \leq 0)\right)]
其中 $|B|$ 表示数据集 $B$ 的大小或 $\xi_{\ell} \in B$ 的总数。
由此,CCP 的松弛问题可以表述为:
[\min_{x \in X} f(x)]
[s.t. \quad \hat{p}(x, B) \geq \alpha]
由于数据集 $B$ 非常大,根据大数定律,我们可以期望 $\hat{p}(x, B) \approx p(x, \Omega)$ 成立,因此可以将松弛问题的解作为 CCP 的解。
4. 基于抽样的数据约简方法
在实际的 CCP 中,每个函数值 $g_m(x, \xi_{\ell})$ 通常需要通过耗时的计算机模拟来评估。因此,我们假设完整数据集 $B$ 太大,无法评估经验概率。为了减少 $B$ 的大小,我们比较以下两种方法:
4.1 简单随机抽样(SRS)
简单随机抽样(SRS)是最常用的数据约简技术之一。我们从完整数据集 $B = {\xi_{\ell}}$ 中随机选择 $N$ 个样本 $\xi_n \in \Xi$,$n = 1, \cdots, N$。样本大小 $N$ 通常远小于数据集大小 $|B|$。通过使用子集 $\Xi = {\xi_1, \cdots, \xi_N} \subseteq B$,可以使用以下经验概率 $\hat{p}(x, \Xi)$ 代替 $\hat{p}(x, B)$:
[\hat{p}(x, \Xi) = \frac{1}{N} \sum_{n = 1}^{N} \left(\prod_{m = 1}^{M} 1l(g_m(x, \xi_n) \leq 0)\right)]
4.2 加权分层抽样(WSS)
我们提出了一种新的数据约简方法,称为加权分层抽样(WSS)。作为一种将完整数据集划分为互斥子集的分层技术,我们采用 $K$ 维等宽直方图。通过使用直方图,完整数据集 $B$ 被划分为 $N$ 个区间 $B_n$:
[B = B_1 \cup \cdots \cup B_n \cup \cdots \cup B_N]
对于每个区间 $B_n$,我们确定一个代表样本 $\theta_n \in \Re^K$,它代表了所有数据 $\xi_{\ell} \in B_n$。设 $\Theta = {\theta_1, \cdots, \theta_N}$ 是代表样本的集合。最佳的 $\Theta \subseteq \Re^K$ 最小化直方图的误差度量:
[e_H(\Theta, B) = \sum_{n = 1}^{N} e_H(\theta_n, B_n) = \sum_{n = 1}^{N} \sum_{\xi_{\ell} \in B_n} (\theta_n - \xi_{\ell})^2]
由于 $e_H(\theta_n, B_n)$ 是凸函数,我们求解以下微分方程:
[\frac{\partial e_H(\theta_n, B_n)}{\partial \theta_n} = 2 \left(|B_n| \theta_n - \sum_{\xi_{\ell} \in B_n} \xi_{\ell}\right) = 0]
从上述方程,我们可以得到 $B_n \subseteq B$ 的最优 $\theta_n \in \Re^K$ 为:
[\theta_n = \frac{1}{|B_n|} \sum_{\xi_{\ell} \in B_n} \xi_{\ell}]
每个 $\theta_n \in \Theta$ 的权重 $w_n \in \Re$ 由 $B_n$ 的大小给出,即 $w_n = |B_n|$。然后,通过使用加权代表样本集合 $\Theta \subseteq \Re^K$,解 $x \in X$ 满足所有约束条件的经验概率评估为:
[\hat{p}(x, \Theta) = \frac{1}{W} \sum_{n = 1}^{N} w_n \left(\prod_{m = 1}^{M} 1l(g_m(x, \theta_n) \leq 0)\right)]
其中 $W = w_1 + \cdots + w_n + \cdots + w_N$ 且 $w_n > 0$,$n = 1, \cdots, N$。
4.3 使用约简数据集的 CCP 松弛问题
从上述公式,CCP 的松弛问题可以修改为:
[\min_{x \in X} f(x)]
[s.t. \quad \hat{p}(x, \Theta) \geq \beta]
其中 $\beta \geq \alpha$ 是为了补偿 $\hat{p}(x, \Theta)$ 的估计误差而选择的水平。
5. 自适应差分进化算法(ADE)
差分进化(DE)已被证明是最强大的全局优化算法之一。特别是 JADE 是最有效的自适应差分进化算法(ADE),它可以自适应地调整 DE 的控制参数。然而,JADE 仅适用于无约束优化问题。为了解决上述松弛问题,我们在原始 JADE 中引入了一种精细的约束处理技术(CHT),开发了一种新的 ADE。
5.1 约束处理和剪枝方法
在最近报道的许多 CHT 中,可行性规则是最广泛使用的 CHT 之一,因为它简单且高效。因此,我们采用可行性规则,约束违反定义为:
[h(x) = \max{\beta - \hat{p}(x, \Theta), 0}]
其中如果 $h(x) > 0$,则解 $x \in X$ 是不可行的。
提出的 ADE 在每一代 $t$ 中有一组解 $x_i \in P_t \subseteq X$,$i = 1, \cdots, NP$,称为种群。每个 $x_i \in P_t$ 依次被分配为目标向量。通过使用 JADE 的策略,即 DE/current-to-pbest/1/bin,从当前目标向量 $x_i \in P_t$ 生成试验向量 $z_i \in X$。
每个试验向量 $z_i \in X$,$i = 1, \cdots, NP$ 与相应的目标向量 $x_i \in P_t$ 进行比较。如果满足以下条件,则立即丢弃 $z_i \in X$,并选择 $x_i \in P_t$ 作为后继 $x_i \in P_{t + 1}$:
[(h(x_i) = 0) \land (f(x_i) < f(z_i))]
由于基于上述条件的剪枝方法不需要 $h(z_i)$ 的值,因此它对于节省 ADE 的运行时间非常有效。只有当上述条件不满足时,才使用代表样本 $\theta_n \in \Theta$,$n = 1, \cdots, N$ 评估经验概率 $\hat{p}(z_i, \Theta)$ 以获得 $h(z_i)$ 的值。此后,如果满足以下任一条件,则选择 $z_i \in X$ 作为后继 $x_i \in P_{t + 1}$。否则,选择 $x_i \in P_t$ 作为 $x_i \in P_{t + 1}$:
[\begin{cases}
h(z_i) < h(x_i) \
(h(z_i) = h(x_i)) \land (f(z_i) < f(x_i))
\end{cases}]
5.2 提出的 ADE 算法
最大代数 $N_T$ 用作终止条件。因此,提出的 ADE 算法描述如下:
1. 随机生成 $x_i \in P_0 \subseteq X$,$i = 1, \cdots, NP$。$t := 0$。
2. 如果 $t = N_T$ 成立,输出最佳解 $x_b \in P_t$。
3. 从 $x_i \in P_t$,$i = 1, \cdots, NP$ 生成试验向量 $z_i \in X$。
4. 为 $x_i \in P_{t + 1}$,$i = 1, \cdots, NP$ 选择 $z_i \in X$ 或 $x_i \in P_t$。
5. 如文献中所示调整 DE 的控制参数。
6. $t := t + 1$。返回步骤 2。
在上述 ADE 中,$h(z_i)$ 的值最多评估 $NP \times N_T$ 次。因此,从公式可知,ADE 的时间复杂度变为 $O(N \times M)$。
6. 洪水控制规划案例研究 1
6.1 CCP 的表述
在洪水控制规划中,我们的目标是最小化保护城市地区免受暴雨造成的洪水灾害的成本。洪水控制水库系统设计已被表述为 CCP。除了水库,森林的蓄水能力也被纳入洪水控制规划中。
图 1 显示了一个拓扑河流模型。符号 $\triangledown$ 表示森林。流域中有两个森林。每个森林的面积 $a_j$,$j = 1, 2$ 是常数。
两个森林都会下雨。单位面积的降雨量 $\xi_j \in \Re$ 是随机变量。森林单位面积的蓄水能力 $x_j \in \Re$ 被视为决策变量,因为它可以通过森林维护(如造林)来控制。根据森林机制模型,从森林到河流的水流入量 $Q_j \in \Re$ 可以描述为:
[Q_j = a_j (\xi_j - x_j (1 - \exp(-\xi_j/x_j)))]
图 1 中符号 $\sqcup$ 表示水库。有两个水库,它们的容量($x_3$ 和 $x_4$)是决策变量。从上述公式,河流流入位于河流下游的城镇的水流量为:
[g(x, \xi) = \max{\max{Q_2 - x_3, 0} + Q_1 - x_4, 0}]
上述水流量可以重写为:
[g(x, \xi) =
\begin{cases}
g_1(x, \xi), & \text{如果 } (Q_2 > x_3) \land (Q_1 + Q_2 > x_3 + x_4) \
g_2(x, \xi), & \text{如果 } (Q_2 \leq x_3) \land (Q_1 > x_4) \
0, & \text{否则}
\end{cases}]
其中 $g_1(x, \xi) = Q_1 + Q_2 - x_3 - x_4$ 且 $g_2(x, \xi) = Q_1 - x_4$。
水流量 $g(x, \xi) \leq 0$ 的概率必须大于 $\alpha \in (0, 1)$。森林的维护成本与其容量成正比。水库的建设成本与其容量的平方成正比。从上述公式,最小化总成本的洪水控制规划被表述为 CCP:
[\begin{cases}
\min_{x \in X} f(x) = a_1 x_1 + a_2 x_2 + c_3 x_3^2 + c_4 x_4^2 \
s.t. \quad Pr(\forall \xi \in \Omega : g_m(x, \xi) \leq 0, m = 1, 2) \geq \alpha \
0.5 \leq x_1 \leq 1.5, 0.5 \leq x_2 \leq 1.5, 0 \leq x_3 \leq 2, 0 \leq x_4 \leq 3
\end{cases}]
其中 $a_1 = 2$,$a_2 = 2$,$c_3 = 3$,$c_4 = 1$,且 $\alpha = 0.9$。
6.2 SRS 和 WSS 的比较
为了比较 SRS 和 WSS 的性能,我们进行了以下实验。降雨量 $\xi_j \in \Re$ 定义为正态分布:
[\xi_j \sim N(\mu_j, \sigma_j^2), \quad j = 1, 2]
其中 $\mu = (\mu_1, \mu_2) = (1, 2)$ 且 $\sigma^2 = (\sigma_1^2, \sigma_2^2) = (0.1^2, 0.2^2)$。降雨量 $\xi = (\xi_1, \xi_2) \in \Omega$ 的相关矩阵为:
[R =
\begin{bmatrix}
1.0 & \rho_{12} \
\rho_{21} & 1.0
\end{bmatrix}
=
\begin{bmatrix}
1.0 & -0.8 \
-0.8 & 1.0
\end{bmatrix}]
从上述正态分布,我们随机生成完整数据集 $B \subseteq \Omega$,$|B| = 10^4$。对于 CCP 的解 $x \in X$,我们评估经验概率 $\hat{p}(x, B)$。然后,通过使用 SRS 和 WSS,我们估计 $\hat{p}(x, B)$ 的值。图 2 显示了它们的估计误差:
[\begin{cases}
e_P(\Xi, B) = |\hat{p}(x, \Xi) - \hat{p}(x, B)| \
e_P(\Theta, B) = |\hat{p}(x, \Theta) - \hat{p}(x, B)|
\end{cases}]
上述估计误差通过使用不同的完整数据集 $B \subseteq \Omega$ 评估 100 次,并在图 2 中取平均值。从图 2 可以看出,对于任何样本大小,$e_P(\Theta, B)$ 的值都小于 $e_P(\Xi, B)$。此外,$e_P(\Theta, B)$ 比 $e_P(\Xi, B)$ 更快地收敛到几乎为零。因此,我们可以说提出的 WSS 在估计准确性方面优于流行的 SRS。
图 3 显示了 $\xi_{\ell} \in B$,$\xi_n \in \Xi$ 和 $\theta_n \in \Theta$ 的空间模式。从图 3 可以看出,WSS 的代表样本 $\theta_n \in \Theta$,$n = 1, \cdots, N$ 比 SRS 的随机样本 $\xi_n \in \Xi$ 分布得更广泛。特别是,SRS 无法从 $B$ 的稀疏尾部获取任何样本。
6.3 数值实验
提出的 ADE 用 MATLAB 编码。ADE 的参数选择为 $N_T = 60$ 和 $NP = 20$。根据提出的方法,将 CCP 转换为松弛问题,其中 $\beta = 0.95$。通过使用不同的 $B \subseteq \Omega$ 和 $P_0 \subseteq X$,将 ADE 应用于松弛问题 20 次。因此,每次都会从 $B$ 生成一个新的集合 $\Theta \subseteq \Re^2$。此外,检查 ADE 获得的最佳解 $x_b \in X$ 是否满足 CCP 松弛问题的约束条件,如 $\hat{p}(x_b, B) \geq \alpha$。
表 1 显示了 20 次运行的实验结果平均值。在表 1 中,$N$ 是 $\theta_n \in \Theta$ 的样本大小。$f(x_b)$ 是 $x_b \in X$ 实现的目标函数值,即 ADE 获得的最佳解。$\hat{p}(x_b, \Theta)$ 和 $\hat{p}(x_b, B)$ 是 $x_b \in X$ 实现的经验概率。比率表示通过剪枝方法丢弃的试验向量 $z_i \in X$ 的百分比。
| $\alpha$ | $\beta$ | $N$ | $f(x_b)$ | $\hat{p}(x_b, \Theta)$ | $\hat{p}(x_b, B)$ | 比率 |
|---|---|---|---|---|---|---|
| 0.90 | 0.95 | 95.4 | 11.230 | 0.955 | 0.943 | 0.397 |
从表 1 的结果,我们可以确认提出的方法的有效性。即使样本大小 $N$ 很小,$\hat{p}(x_b, \Theta)$ 也接近 $\hat{p}(x_b, B)$。最佳解 $x_b \in X$ 满足约束条件 $\hat{p}(x_b, B) \geq \alpha$。因此,如果我们假设 $\hat{p}(x_b, B) \approx p(x_b, \Omega)$ 成立,我们可以将 $x_b \in X$ 视为 CCP 的可行解。从表 1 中的高比率,我们还可以确认剪枝方法在节省样本数量方面非常有效。
下面是这个过程的 mermaid 流程图:
graph LR
A[开始] --> B[生成完整数据集 B]
B --> C[使用 SRS 和 WSS 进行数据约简]
C --> D[评估经验概率]
D --> E[应用 ADE 求解松弛问题]
E --> F[检查最佳解是否满足约束条件]
F --> G[输出结果]
G --> H[结束]
综上所述,我们提出的基于分层抽样的数据约简方法和自适应差分进化算法在洪水控制规划的案例研究中表现出了良好的性能。通过数据约简,我们可以在不损失太多信息的情况下减少计算量,同时自适应差分进化算法可以高效地求解 CCP 的松弛问题。然而,该方法仍然存在一些问题,如如何确定 $K$ 维直方图的区间以及如何处理高维数据集等。在未来的工作中,我们将进一步研究这些问题,以提高方法的性能和适用性。
基于分层抽样的数据约简解决机会约束问题
7. 洪水控制规划案例研究 2
7.1 CCP 的表述
图 4 展示了另一个拓扑河流模型,与案例研究 1 类似。此模型中有五个森林和五个水库。森林的蓄水能力 $x_j$($j = 1, \cdots, 5$)以及水库的容量 $x_j$($j = 6, \cdots, 10$)被设定为决策变量,而降雨量 $\xi_j$($j = 1, \cdots, 5$)则是随机变量。
基于此,该洪水控制规划可表述为 CCP:
[\begin{cases}
\min_{x \in X} f(x) = \sum_{j = 1}^{5} a_j x_j + \sum_{j = 6}^{10} c_j x_j^2 \
s.t. \quad Pr(\forall \xi \in \Omega : g_m(x, \xi) \leq 0, m = 1, \cdots, 9) \geq \alpha \
0.5 \leq x_j \leq 1.5, j = 1, \cdots, 5, 0 \leq x_j \leq 3, j = 6, 7, 8 \
0 \leq x_9 \leq 4, 0 \leq x_{10} \leq 4
\end{cases}]
其中,$a_j = 2$($j = 1, \cdots, 5$),$c_j = 3$($j = 6, 7, 8$),$c_9 = 2$,$c_{10} = 1$,且 $\alpha = 0.9$。
同样,利用之前提到的 $Q_j$ 公式,可推导出 CCP 中的函数 $g_m(x, \xi)$($m = 1, \cdots, 9$):
[\begin{cases}
g_1(x, \xi) = Q_1 + Q_2 + Q_3 + Q_4 + Q_5 - x_6 - x_7 - x_8 - x_9 - x_{10} \
g_2(x, \xi) = Q_1 + Q_2 + Q_4 + Q_5 - x_6 - x_7 - x_9 - x_{10} \
g_3(x, \xi) = Q_1 + Q_3 + Q_4 + Q_5 - x_6 - x_8 - x_9 - x_{10} \
g_4(x, \xi) = Q_2 + Q_3 + Q_4 + Q_5 - x_7 - x_8 - x_9 - x_{10} \
g_5(x, \xi) = Q_1 + Q_4 + Q_5 - x_6 - x_9 - x_{10} \
g_6(x, \xi) = Q_2 + Q_4 + Q_5 - x_7 - x_9 - x_{10} \
g_7(x, \xi) = Q_3 + Q_4 + Q_5 - x_8 - x_9 - x_{10} \
g_8(x, \xi) = Q_4 + Q_5 - x_9 - x_{10} \
g_9(x, \xi) = Q_5 - x_{10}
\end{cases}]
7.2 SRS 和 WSS 的比较
为方便计算,降雨量 $\xi_j$ 同样定义为正态分布:
[\xi_j \sim N(\mu_j, \sigma_j^2), j = 1, \cdots, 5]
其中,$\mu = (\mu_1, \mu_2, \mu_3, \mu_4, \mu_5) = (2.0, 1.5, 2.5, 0.8, 1.0)$,$\sigma^2 = (\sigma_1^2, \sigma_2^2, \sigma_3^2, \sigma_4^2, \sigma_5^2) = (0.2^2, 0.1^2, 0.2^2, 0.1^2, 0.1^2)$,降雨量 $\xi = (\xi_1, \xi_2, \xi_3, \xi_4, \xi_5) \in \Omega$ 的相关矩阵为:
[R =
\begin{bmatrix}
1.0 & -0.5 & 0.0 & 0.3 & -0.5 \
-0.5 & 1.0 & -0.8 & 0.0 & 0.2 \
0.0 & -0.8 & 1.0 & 0.0 & 0.3 \
0.3 & 0.0 & 0.0 & 1.0 & 0.0 \
-0.5 & 0.2 & 0.3 & 0.0 & 1.0
\end{bmatrix}]
随机生成完整数据集 $B \subseteq \Omega$,$|B| = 10^4$。对于 CCP 的解 $x \in X$,评估经验概率 $\hat{p}(x, B)$,然后使用 SRS 和 WSS 估计 $\hat{p}(x, B)$ 的值。图 5 展示了它们的估计误差,与案例研究 1 不同的是,在图 5 中无法明显看出 WSS 的优势。当数据集 $B$ 的维度 $K$ 升高时,WSS 的效果似乎有所降低。
图 6 展示了 $\xi_{\ell} \in B$,$\xi_n \in \Xi$ 和 $\theta_n \in \Theta$ 的模式。可以看出,代表样本 $\theta_n \in \Theta$ 比随机样本 $\xi_n \in \Xi$ 分布得更广泛,但由于其高维度 $K = 5$,无法确认 $\theta_n \in \Theta$ 模式的均匀性。
7.3 数值实验
将 CCP 转换为松弛问题,$\beta = 0.95$。ADE 的参数选择为 $N_T = 200$ 和 $NP = 50$。使用不同的 $B \subseteq \Omega$ 和 $P_0 \subseteq X$,将 ADE 应用于松弛问题 20 次。
表 2 展示了 20 次运行的实验结果平均值。在表 2 中,$N$ 是 $\theta_n \in \Theta$ 的样本大小,$f(x_b)$ 是 $x_b \in X$ 实现的目标函数值,$\hat{p}(x_b, \Theta)$ 和 $\hat{p}(x_b, B)$ 是 $x_b \in X$ 实现的经验概率,比率表示通过剪枝方法丢弃的试验向量 $z_i \in X$ 的百分比。
| $\alpha$ | $\beta$ | $N$ | $f(x_b)$ | $\hat{p}(x_b, \Theta)$ | $\hat{p}(x_b, B)$ | 比率 |
|---|---|---|---|---|---|---|
| 0.90 | 0.95 | 407.3 | 34.157 | 0.952 | 0.934 | 0.396 |
从表 2 的结果可知,最佳解 $x_b \in X$ 满足约束条件 $\hat{p}(x_b, B) \geq \alpha$。若假设 $\hat{p}(x_b, B) \approx p(x_b, \Omega)$ 成立,可将 $x_b \in X$ 视为 CCP 的可行解。同时,从表 2 中的高比率可确认剪枝方法在节省样本数量方面非常有效。
下面是这个案例研究的 mermaid 流程图:
graph LR
A[开始] --> B[生成完整数据集 B]
B --> C[使用 SRS 和 WSS 进行数据约简]
C --> D[评估经验概率]
D --> E[应用 ADE 求解松弛问题]
E --> F[检查最佳解是否满足约束条件]
F --> G[输出结果]
G --> H[结束]
8. 讨论与结论
本文提出并研究了一种利用大数据集解决 CCP 的实用方法。具体而言,使用完整数据集构建 CCP 的松弛问题。由于完整数据集过大,难以评估 CCP 所有约束条件都满足的经验概率,因此提出了一种基于分层抽样的新数据约简方法。此外,还提出了一种新的样本节省技术,结合新的 ADE 高效求解 CCP 的松弛问题。最后,将该方法应用于两个洪水控制规划的 CCP 实例。
如今,由于新兴信息技术的发展,各领域都有大量数据集可用,因此利用大数据集解决 CCP 的方法具有很大的潜力。然而,基于分层抽样的数据约简方法仍存在以下问题:
-
如何确定 $K$ 维直方图的区间
:样本 $\theta_n \in \Theta$ 的数量和准确性取决于区间的选择。
-
如何处理高维数据集
:在高维数据集中,分配到同一区间的数据 $\xi_{\ell} \in B_n$ 的相似性降低,一个样本 $\theta_n \in \Theta$ 可能无法代表所有数据 $\xi_{\ell} \in B_n$。
在未来的工作中,我们将开发一种自适应确定直方图区间的技术,从而利用代表样本 $\theta_n \in \Theta$ 执行一种重要性抽样。此外,为了处理高维数据集,我们将基于数据元素之间的相关性开发一种完整数据集 $B = {\xi_{\ell}}$ 的聚类技术,将完整数据集划分为几个低维且相互独立的子集,以便有效地将提出的数据约简方法应用于每个子集。同时,还需要将提出的 ADE 与其他进化算法(如蚁群优化算法)进行比较。
超级会员免费看
1252

被折叠的 条评论
为什么被折叠?



