34、基于PSO的改进离散化特征选择与序列处理模型研究

基于PSO的改进离散化特征选择与序列处理模型研究

基于PSO的改进离散化特征选择

在处理高维数据时,特征选择是提高分类性能的关键步骤。通过引入离散化的思想,结合粒子群优化算法(PSO),能够更有效地选择特征。

距离计算与目标优化

在特征选择过程中,需要衡量不同类实例之间的差异($D_B$)和同类实例之间的差异($D_W$)。其计算公式如下:
- $D_B = \frac{1}{|S|}\sum_{i=1}^{|S|}\min_{{j|j\neq i,\text{class}(V_i)\neq\text{class}(V_j)}} \text{Dis}(V_i, V_j)$
- $D_W = \frac{1}{|S|}\sum_{i=1}^{|S|}\min_{{j|j\neq i,\text{class}(V_i)=\text{class}(V_j)}} \text{Dis}(V_i, V_j)$

其中,$\text{Dis}(V_i, V_j)$ 表示两个向量 $V_i$ 和 $V_j$ 之间的汉明距离。目标是最大化 $D_B$,同时最小化 $D_W$。为了综合考虑这两个因素,引入了距离公式:
$\text{distance} = \frac{1}{1 + \exp^{-5(D_B - D_W)}}$

粒子更新操作

采用 Bare-bone PSO(BBPSO)算法来更新粒子的位置。每个粒子的位置更新根据正态分布 $N(\mu, \sigma)$ 进行,具体公式如下:
$x_{id}^{t + 1} =
\begin{cases}
N(\mu, \sigma), & \text{if random()} < 0.5 \
p_{id}^{t}, & \text{otherwise}
\end{cases}$

其中,$\mu$ 是全局最优位置($gbest$)和个体最优位置($pbest$)的中点,$\sigma$ 是这两个点之间的距离。在搜索过程中生成的实数值会被四舍五入为整数,作为选择的分割点数量。

此外,每次迭代后,会计算粒子的适应度值,并对适应度值进行排序。如果新生成的粒子适应度值优于当前最差粒子,则用新粒子替换最差粒子。新粒子通过高斯分布 $N(\mu_B, \lambda_B)$ 生成,公式如下:
- $\mu_B = \frac{X_{B1}^{t} + X_{B2}^{t}}{2}$
- $\lambda_B = |X_{B1}^{t} - X_{B2}^{t}|$
- $X_{W}^{t + 1} =
\begin{cases}
N(\mu_B, \lambda_B), & f(X_{W}^{t + 1}) > f(X_{W}^{t}) \
X_{W}^{t}, & \text{otherwise}
\end{cases}$

这种更新策略有助于保留最佳特征,减少噪声特征,加快粒子的收敛速度,从而提高分类的整体准确性。

局部搜索过程

局部搜索用于探索更多的解决方案。当选择的分割点数量 $M_s$ 小于分割点总数 $N_s$ 时,通过随机替换一个已选择的分割点为 $C_{M_s + 1}^s$ 来进行局部搜索。

实验设置与结果分析

为了验证该方法(IDFS - PSO)的优越性,使用了十个基因表达基准数据集进行实验。实验设置如下:
- 种群大小:设置为每个数据集特征数量的 1/20,但不超过 300。
- 迭代次数:设置为 70。
- 停止条件:当 $gbest$ 的值在连续十次迭代中没有改善时,算法停止。
- ReliefF 权重阈值:设置为 0.35。
- K - NN 的 $k$ 值:选择为 1 以加速分类。

将 IDFS - PSO 与几种最先进的方法进行比较,包括 Full(KNN 使用全量特征)、经典的 PSO - FS 算法、EPSO、PPSO 和 APPSO。实验结果如下表所示:
| Dataset | Method | #Features Size | Accuracy |
| ---- | ---- | ---- | ---- |
| SRBCT | Full | 2308 | 87.08 |
| SRBCT | PSO - FS | 150.0 | 91.31 |
| SRBCT | EPSO | 137.3 | 96.89 |
| SRBCT | PPSO | 108.5 | 95.78 |
| SRBCT | APPSO | 24.8 | 99.59 |
| SRBCT | IDFS - PSO | 23.6 | 99.52 |
| DLBCL | Full | 5469 | 83.00 |
| DLBCL | PSO - FS | 101.8 | 80.03 |
| DLBCL | EPSO | 42.8 | 85.18 |
| DLBCL | PPSO | 44.0 | 86.22 |
| DLBCL | APPSO | 19.1 | 94.71 |
| DLBCL | IDFS - PSO | 17.8 | 94.95 |
| Prostate | Full | 10509 | 85.33 |
| Prostate | PSO - FS | 777.4 | 85.20 |
| Prostate | EPSO | 54.9 | 83.74 |
| Prostate | PPSO | 65.6 | 91.82 |
| Prostate | APPSO | 37.6 | 91.22 |
| Prostate | IDFS - PSO | 31.7 | 91.48 |
| Leukemia 1 | Full | 5327 | 79.72 |
| Leukemia 1 | PSO - FS | 150.0 | 81.60 |
| Leukemia 1 | EPSO | 135.9 | 93.37 |
| Leukemia 1 | PPSO | 80.4 | 94.37 |
| Leukemia 1 | APPSO | 22.3 | 94.50 |
| Leukemia 1 | IDFS - PSO | 23.8 | 94.83 |
| Leukemia 2 | Full | 11225 | 89.44 |
| Leukemia 2 | PSO - FS | 150.0 | 86.11 |
| Leukemia 2 | EPSO | 139.9 | 89.93 |
| Leukemia 2 | PPSO | 86.7 | 96.74 |
| Leukemia 2 | APPSO | 35.8 | 95.72 |
| Leukemia 2 | IDFS - PSO | 33.2 | 95.96 |
| 9Tumor | Full | 5726 | 36.67 |
| 9Tumor | PSO - FS | 955.0 | 45.95 |
| 9Tumor | EPSO | 138.5 | 58.22 |
| 9Tumor | PPSO | 118.1 | 59.28 |
| 9Tumor | APPSO | 39.5 | 42.23 |
| 9Tumor | IDFS - PSO | 34.5 | 51.28 |
| 11Tumor | Full | 12533 | 71.42 |
| 11Tumor | PSO - FS | 1638.8 | 82.62 |
| 11Tumor | EPSO | 149.9 | 79.29 |
| 11Tumor | PPSO | 167.0 | 76.83 |
| 11Tumor | APPSO | 325.8 | 87.46 |
| 11Tumor | IDFS - PSO | 170.6 | 88.16 |
| Brain Tumor 1 | Full | 5920 | 72.08 |
| Brain Tumor 1 | PSO - FS | 317.3 | 71.00 |
| Brain Tumor 1 | EPSO | 150.7 | 72.79 |
| Brain Tumor 1 | PPSO | 73.4 | 74.40 |
| Brain Tumor 1 | APPSO | 41.3 | 87.92 |
| Brain Tumor 1 | IDFS - PSO | 41.6 | 88.27 |
| Brain Tumor 2 | Full | 10367 | 62.50 |
| Brain Tumor 2 | PSO - FS | 417.9 | 69.11 |
| Brain Tumor 2 | EPSO | 152.8 | 70.76 |
| Brain Tumor 2 | PPSO | 66.7 | 68.75 |
| Brain Tumor 2 | APPSO | 39.4 | 70.62 |
| Brain Tumor 2 | IDFS - PSO | 35.8 | 70.93 |
| Lung cancer | Full | 12600 | 78.05 |
| Lung cancer | PSO - FS | 686.2 | 81.72 |
| Lung cancer | EPSO | 150.8 | 80.60 |
| Lung cancer | PPSO | 203.0 | 79.38 |
| Lung cancer | APPSO | 157.8 | 92.58 |
| Lung cancer | IDFS - PSO | 145.8 | 92.89 |

从实验结果可以看出,IDFS - PSO 在特征选择数量和测试准确性方面都表现出色。与其他方法相比,它能够选择更少的特征,同时保持较高的分类准确性。这表明将离散化引入 PSO 搜索有助于显著提高分类性能。

序列处理模型:Feature - Aware Attentive Convolutional Neural Network

序列处理在许多领域都有广泛的应用,如心脏病检测、非法洗钱检测和异常入侵检测等。然而,序列处理面临着特征稀疏性和高维度的挑战,以及特征交互探索不足的问题。为了解决这些问题,提出了一种特征感知的序列注意力卷积神经网络(SeqANN)。

模型概述

SeqANN 的主要目标是通过利用序列的全局信息、局部信息以及领域特征,交互式地学习序列表示。具体来说,该模型包括以下几个部分:
1. 单通道卷积神经网络(CNN) :用于学习全局序列信息。
2. 多通道 CNN :用于学习局部序列信息。
3. 特征感知注意力机制 :用于学习特征之间的交互,并根据领域特征的序列表示自适应地确定局部表示的重要部分。

相关工作

传统的序列处理方法主要包括特征分类、距离分类和统计方法。随着深度学习的发展,神经网络被广泛应用于序列处理任务。在基因组研究中,基于卷积神经网络(CNNs)的方法在预测蛋白质结合的 RNA/DNA 方面表现优于传统方法。然而,这些方法往往忽略了序列的领域特征及其交互。

模型方法
  • 全局表示学习 :使用单通道 CNN 来学习全局序列表示。
  • 局部特征学习 :设计多通道 CNN 来学习局部序列特征。
  • 特征交互学习 :引入特征感知注意力机制,通过考虑领域特征(如 RNA 序列的 Kmer 特征),学习特征之间的交互,并自适应地确定局部表示的重要部分。
实验评估

在广泛使用的生物医学数据集 RBP - 24 上对 SeqANN 进行评估。实验结果表明,SeqANN 在预测准确性方面优于其他现有方法,具有较强的竞争力。

总结

本文介绍了两种不同的方法,分别用于特征选择和序列处理。基于 PSO 的改进离散化特征选择方法(IDFS - PSO)通过引入离散化和优化粒子更新策略,能够有效地选择特征,提高分类性能。而特征感知的序列注意力卷积神经网络(SeqANN)则通过结合全局信息、局部信息和领域特征,解决了序列处理中的特征稀疏性和特征交互问题,在生物医学数据集上取得了良好的实验结果。这两种方法为高维数据处理和序列处理提供了有效的解决方案。

基于PSO的改进离散化特征选择与序列处理模型研究(续)

基于PSO的改进离散化特征选择深入分析
局部搜索的有效性

为了评估局部搜索在 IDFS - PSO 中的性能,在十个数据集上对有局部搜索(记为 w)和无局部搜索(记为 w/o)的算法进行了比较,结果如下表所示:
| Dataset | #Features (w) | #Features (w/o) | Accuracy (w) | Accuracy (w/o) |
| ---- | ---- | ---- | ---- | ---- |
| SRBCT | 23.6 | 23.9 | 99.52 | 99.35 |
| DLBCL | 17.8 | 18.2 | 94.95 | 94.87 |
| 9Tumor | 31.7 | 32.6 | 91.48 | 90.76 |
| Leukemia 1 | 23.8 | 24.3 | 94.83 | 94.80 |
| Brain Tumor 1 | 33.2 | 34.1 | 95.96 | 96.14 |
| Leukemia 2 | 34.5 | 34.9 | 51.28 | 52.78 |
| Brain Tumor 2 | 170.6 | 173.8 | 88.16 | 88.13 |
| Prostate | 41.6 | 42.5 | 88.27 | 88.45 |
| Lung Cancer | 35.8 | 37.2 | 70.93 | 70.55 |
| 11Tumor | 145.8 | 148.9 | 92.89 | 92.57 |

从表中可以看出,在大多数测试数据中,带有局部搜索的算法能够取得更好的性能。局部搜索能够探索更多可能的分割点组合,从而找到更好的 PSO 解决方案。

计算时间分析

对 PPSO、APPSO 和本文提出的 IDFS - PSO 方法的运行时间进行了测量,结果如下表所示:
| Dataset | PPSO | APPSO | IDFS - PSO |
| ---- | ---- | ---- | ---- |
| SRBCT | 220.5 | 197.8 | 174.5 |
| DLBCL | 226.9 | 185.6 | 162.6 |
| 9Tumor | 324.7 | 244.6 | 218.1 |
| Leukemia 1 | 379.6 | 350.4 | 315.2 |
| Brain Tumor 1 | 327.8 | 317.2 | 290.5 |
| Leukemia 2 | 236.4 | 225.3 | 194.6 |
| Brain Tumor 2 | 176.2 | 167.9 | 158.8 |
| Prostate | 305.2 | 210.2 | 202.3 |
| Lung Cancer | 1186.9 | 598.5 | 533.8 |
| 11Tumor | 785.8 | 497.7 | 462.7 |

总体而言,IDFS - PSO 的计算时间比 PPSO 和 APPSO 少。虽然 IDFS - PSO 和 APPSO 在更新过程中选择更多的分割点,但在第一阶段预先选择一定数量的特征有助于提高基于离散化的特征选择的收敛速度,因此它们需要更少的运行时间。IDFS - PSO 比 APPSO 花费更少时间的原因是,基于排名寻找良好分割点的速度比随机选择快很多,随机选择通常需要多次试验。

下面是 IDFS - PSO 算法的流程 mermaid 图:

graph TD;
    A[初始化种群] --> B[计算距离DB和DW];
    B --> C[更新粒子位置];
    C --> D[计算粒子适应度值];
    D --> E[排序并替换最差粒子];
    E --> F{是否满足停止条件};
    F -- 否 --> G[进行局部搜索];
    G --> B;
    F -- 是 --> H[输出结果];
序列处理模型:Feature - Aware Attentive Convolutional Neural Network 深入探讨
模型优势分析

SeqANN 模型结合了全局信息、局部信息和领域特征,相比传统方法具有显著优势。传统方法往往只关注单一类型的信息,而 SeqANN 能够综合利用各种信息,从而更全面地学习序列表示。

具体来说,单通道 CNN 负责学习全局序列信息,能够捕捉序列的整体特征;多通道 CNN 专注于学习局部序列信息,能够发现序列中的局部模式。特征感知注意力机制则进一步增强了模型对特征交互的学习能力,根据领域特征自适应地确定局部表示的重要部分,提高了模型的表达能力。

特征感知注意力机制的作用

特征感知注意力机制是 SeqANN 模型的核心组成部分。它通过考虑领域特征,能够更好地理解序列中不同特征之间的关系。例如,在生物医学领域,RNA 序列的 Kmer 特征能够提供关于序列结构和功能的重要信息。通过注意力机制,模型可以根据这些领域特征,对局部表示进行加权,突出重要的特征部分,从而提高模型的预测准确性。

下面是 SeqANN 模型的结构 mermaid 图:

graph TD;
    A[输入序列] --> B[单通道CNN];
    A --> C[多通道CNN];
    B --> D[全局表示];
    C --> E[局部表示];
    F[领域特征] --> G[特征感知注意力机制];
    D --> G;
    E --> G;
    G --> H[加权局部表示];
    H --> I[输出预测结果];
未来应用展望

SeqANN 模型在生物医学数据集上取得了良好的实验结果,具有广阔的应用前景。在生物医学领域,它可以用于预测蛋白质结合的 RNA/DNA,帮助研究人员更好地理解基因调控机制。在其他领域,如金融、安全等,序列处理也有重要的应用,SeqANN 模型可以为这些领域的序列处理任务提供有效的解决方案。

综合比较与结论

将基于 PSO 的改进离散化特征选择方法(IDFS - PSO)和特征感知的序列注意力卷积神经网络(SeqANN)进行综合比较,可以发现它们分别针对不同的问题提供了解决方案。

IDFS - PSO 主要用于特征选择,通过离散化和优化粒子更新策略,能够有效地减少特征数量,提高分类性能。而 SeqANN 则专注于序列处理,通过结合多种信息和特征感知注意力机制,解决了序列处理中的特征稀疏性和特征交互问题。

这两种方法都具有创新性和实用性,为高维数据处理和序列处理提供了新的思路和方法。在实际应用中,可以根据具体问题选择合适的方法,或者将两种方法结合使用,以获得更好的效果。

总之,本文介绍的两种方法在特征选择和序列处理领域都具有重要的意义,有望在未来的研究和应用中发挥更大的作用。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值