高维数据聚类中的最优特征子集选择
摘要
特征子集选择是识别并去除大量不相关和冗余特征的过程。首先,从医学数据库中选取输入微阵列数据集。然后对输入数据集进行预处理步骤。将得到的输出结果输入到第二步;在此步骤中,通过聚类与树生成过程最优地选择特征。在我们提出的方案中,将改进的基于核的模糊C均值聚类算法与最优最小生成树算法应用于高维数据集以选择重要特征,并通过二进制布谷鸟搜索方法选择最优特征。接着,通过神经模糊分类器进行分类。最后,利用不同的微阵列数据集进行实验。结果表明,在 GLA‐BRA‐180数据集上,神经模糊分类器达到最高准确率89%,优于现有方法:现有神经网络仅达到68.2%,模糊分类器达到63.1%,KNN分类器达到67.3%。
关键词 :神经模糊分类器;微阵列;改进的基于核的模糊c均值;最小生成树;二进制布谷鸟搜索。
1 引言
特征选择是数据挖掘中的一个重要课题,尤其是在高维数据集中(马根迪兰和贾亚兰贾尼,2014年)。特征子集选择旨在针对目标概念选取一组优良的特征子集,是降低维度、去除无关数据、提高学习准确性以及增强结果可解释性的有效方法(谢帕尔和谢赫,2014年)。特征选择的目标多种多样,其中最重要的包括:提升模型性能、提供更快且更具成本效益的模型,以及更深入地理解生成数据的潜在过程(内马蒂等,2009)。在使用特征选择技术时,其核心假设是数据中包含大量无关或冗余特征。冗余特征是指那些所提供的信息不超出当前已选特征的信息量,而无关特征则不提供任何有用信息。特征选择技术通常应用于特征数量众多但样本数量相对较少的领域(穆达利尔等,2015年)。特征提取通过原始特征的函数创建新特征,而特征选择则返回特征的一个子集(卡梅帕利和莫图库里,2014年)。一个特征选择算法可以看作是一种用于提出新特征子集的搜索技术与一种对不同特征子集进行评分的评估指标的结合(玛德哈维和亚达夫,2014年)。特征选择方法是特征提取的一种通用形式。在特征提取中,新特征集由已预设的数据特征生成;而在特征选择过程中,则得到适用于所需搜索的有用特征子集。
它具有搜索时间更少、结果最优等优点。特征子集选择可通过多种算法实现,例如最佳搜索、贪心前向选择算法、贪心后向消除算法和遗传算法(苏塔尔和加德卡尔,2014年)。针对机器学习应用,已有许多特征子集选择方法被提出并研究。这些方法可分为四大类:嵌入式方法、包装法、过滤法和混合方法(丹德和查特,2014年)。特别是,我们采用基于最小生成树的聚类算法,因为它们不对数据点进行假设围绕中心聚类或通过标准几何曲线分离,并在传统中被广泛使用(戈达塞和古普塔,2015)。嵌入式方法将特征选择作为训练过程的一部分,通常针对特定的学习算法,因此可能比其他三类方法更高效。传统的机器学习算法如决策树或人工神经网络(NNs)即为嵌入式方法的示例(卡里扬和谢赫,2014)。在包装器方法中,评估函数计算由生成过程产生的特征子集的适用性,并将其与之前的最佳候选进行比较,若发现更优则予以替换。在每次迭代中都会测试停止准则,以确定特征选择过程是否应继续(内马蒂等,2009)。
过滤器方法与学习算法无关,具有良好的通用性。它们的计算复杂度较低,但不能保证学习算法的准确率。混合方法结合了过滤法和包装法,通过使用过滤法来减少后续包装法需要考虑的搜索空间。这些方法主要关注于结合过滤法和包装法,以在特定学习算法上实现尽可能好的性能,同时保持与过滤法相似的时间复杂度(Karthikeyan et al., 2014)。在聚类分析中,图论方法被广泛应用于许多场景。有时其结果与人类表现具有最佳一致性。图论聚类用于评估实例的邻域图(Durga and Priya, 2014)。我们采用图论方法对特征进行聚类,以选择与目标类别最相关的代表性特征。为此,我们在基于快速聚类的特征选择算法(FAST)中采用了最小生成树(MST)。FAST算法分为两个步骤:首先,将特征划分为多个簇;然后从每个簇中选择最有用的特征(Durga and Priya, 2014)。不同簇中的特征相对独立,因此FAST的基于聚类策略有较大概率产生一组有用且独立的特征(Suman and Thirumagal, 2013)。不同簇中的特征相对独立;FAST的基于聚类策略具有较大概率生成一组有用且独立的特征(Kumaravel and Raja, 2013)。
所提出技术的整体贡献如下所述,
- 本研究提出了高维数据中的最优特征选择。
- 通过改进的基于核的模糊c均值聚类(MKFCM)算法对相关特征进行分组。
- 为提高聚类效率,提出了最优最小生成树算法。
- 采用二进制布谷鸟搜索算法选择最优特征。
- 为了提高分类准确率,我们提出的技术中采用了神经模糊分类器。
2 相关工作
变量选择是高维数据聚类分析中的一个重要问题,也是一个困难的问题。这种困难不仅源于类别信息的缺乏,还因为高维数据通常是多面的,可以通过多种方式进行有意义地聚类。在这种情况下,试图寻找一个能够给出“最佳”聚类结果的属性子集可能是不恰当的。更合理的方法是识别数据集的各种面(每个面基于一组属性子集),沿每个面分别对数据进行聚类,并将结果提供给领域专家进行评估和选择。Poon 等人 (2013) 提出了一种高斯混合模型的推广方法,并展示了其自动识别数据的自然面并同时沿各个面进行聚类的能力。他们提供了实证结果,表明面确定通常比变量选择带来更好的聚类结果。
维度选择、维度加权和数据分配是高维数据聚类中三个循环依赖的关键任务,每一项任务都具有挑战性。为了应对高维数据聚类的挑战,一些先前的研究引入了约束。然而,这些基于约束的算法仅利用约束来辅助完成三项关键任务中的一项。Liu 和 Li (2014) 指出,维度选择、维度加权和数据分配是高维数据聚类的三项关键任务。他们还指出,需要通过约束来打破这三项关键任务之间的循环依赖关系。他们提出了基于集成约束的高维数据聚类(ICBC)算法,与以往的算法不同,该算法利用约束同时完成所有三项关键任务。实验结果表明,在准确率、效率和可扩展性方面,将约束集成应用于这三项关键任务具有优越性。未来的工作包括从约束中挖掘更多信息,并将其与其他子空间聚类的搜索方法相结合,以提升高维数据聚类的性能。
Bouveyron 和 Saumard (2014) 因此对高维数据基于模型的聚类现有解法进行了综述。基于模型的聚类是一种流行工具,以其概率基础和灵活性著称。然而,如今高维数据越来越普遍,而经典基于模型的聚类技术在高维空间中表现出令人失望的表现。这主要是因为在这种情况下,基于模型的聚类方法被严重过度参数化。然而,高维空间具有有利于聚类的特定特征,而近期的技术正在利用这些特征。在回顾了基于模型的聚类基础之后,综述了降维方法、基于正则化的技术、简约建模、子空间聚类方法以及基于变量选择的聚类方法。还将回顾用于高维数据基于模型的聚类的现有软件,并在真实世界数据集上展示其实际应用。
基因表达数据通常包含较少的样本(因为每次实验成本较高)以及由自动机器人设备捕获的数千个表达值(或特征)。对于这类数据,特征选择是一项重要且具有挑战性的任务,许多传统方法在此任务上表现不佳,而基于进化的方法则取得了成功。Banka 达拉(2014)提出了一种基于汉明距离的二进制粒子群算法,用于基因表达数据中的特征选择和分类。实验结果验证了所提出的HDBPSO算法在该问题中使用汉明距离作为邻近度量时性能更优。特征选择的主要目标是选择最少数量的特征并获得更高的分类准确率。此处通过两个适应度函数实现了这一目标。所提出的方法与若干现有方法的性能进行了比较,以展示所提出算法的优越性。在三个高维基准癌症数据集上的实验结果证明了所提出算法的可行性和有效性。结果还通过稳定性指数进行了验证。所提出的HDBPSO算法不仅适用于高维数据中的特征选择和分类,也适用于人脸识别或其他高维数据分类等其他应用领域。
赫贾齐等人(2015)提出了一种新的特征选择方法,该方法基于隶属度边界,同时处理混合类型和高维数据,以提高模糊分类器的性能。其核心思想是将不同类型的所有特征同时映射到一个公共空间——隶属空间。一旦所有特征都在同质空间中表示,就可以统一地进行特征加权。该加权方法通过模糊规则加权概念集成到模糊分类器中,以提升其性能。为了避免任何启发式组合搜索,这些模糊权重通过在边界框架内优化目标函数来估计。所提出的方法还被扩展到了多类问题。该方法的优势首先在具有混合类型数据特征的低维真实世界数据集上得到了验证。实验结果表明,该方法显著提升了模糊分类器以及其他先进分类器的分类性能。
特征选择是机器学习和模式识别中的一个重要预处理步骤。特征选择的最终目标是从原始特征集中选择一个特征子集,以提高学习算法的性能。在莫拉迪和罗斯塔米(2015)的研究中,通过将图聚类的概念与蚁群优化的搜索过程相结合,提出了一种新的特征选择方法。所提出的方法分为三个步骤:第一步,将问题空间表示为图,将整个特征集视为顶点集,并以特征相似性作为对应的边权重;第二步,采用社区检测方法将特征划分为若干个簇;最后,在第三步中,我们使用一种基于 ACO的特征选择算法,该算法利用了特征簇进行构建。所提出的方法能够处理无关特征和冗余特征。这是因为,在聚类后的图中,每只蚂蚁都试图寻找相似性最小的特征,同时最大化对目标类别的依赖性。该方法的性能已在十个基准分类问题上与当前最先进的过滤式和封装式特征选择方法进行了比较。结果表明,我们的方法始终产生了更高的分类准确率。
在萨哈等人(2015)中,提出了一种基于多目标优化(MOO)的新框架,即 FeaClusMOO,该框架能够识别出正确的划分以及数据集中最相关的特征子集。一种新开发的基于多目标模拟退火的优化技术,即归档的多目标模拟退火(AMOSA)被用作优化的背景策略。在此,聚类中心和特征组合以字符串形式编码。作为目标函数,使用了两个内部聚类有效性指数,分别基于欧几里得距离和基于点对称性的距离来衡量所获得划分的质量,以及特征数量的计数。这三个目标通过AMOSA同时优化,以检测适当的特征子集、适当的簇数量以及适当的划分。FeaClusMOO的有效性在高维真实数据集上与该算法的基于欧几里得距离的版本、一种单目标聚类技术VGAPS以及一种传统聚类技术K‐均值聚类进行了比较。结果表明,所提出的方法适用于自动检测具有某些具有对称形状的聚类的不同数据集中的适当划分和适当的特征组合。未来的工作包括研究将其他一些内部聚类有效性指数作为目标函数用于优化所提出方法的应用。
Lughofer 等人(2015)讨论了所提出的方法采用了新出现的模糊概念导向分割器,称为简约分类器(pClass)。pClass最初从零开始,基于自由概念导向基础或先前使用的模糊步骤。该方法采用开放方式,并在连接任务被使用时立即发挥作用,以实现即时知识构建、基于规则的简化以及软特性减少。这些都通过在线方式进行,无需对数据具有强知识或先前内容。文中还解释了三种先进的分割器结构,包括多种输入和多种结果、不同项目以及循环结构。所有这些都基于信息流和移动特征进一步处理。根据某些实验结果可以明确,pClass在划分功能和模糊步骤数量方面表现良好。
Pratama 等人(2015a)提出了一种新的基于意识分析依赖支架的分割器,称为递归分类器(rClass),并在文中进行了说明。该 rClass 主要关注三种方式,通过清晰地回答“学什么”、“学习方式”和“学习时长”等问题,简化了学习方法。rClass 的重要部分基于现有版本的 Takagi‐Sugeno‐Kang 模糊系统,利用递归网络支持规则部分的通用响应。在三种学习方法中,“学什么”这一部分在先进方法中产生了更好的影响。这主要依赖于最近提出的主动学习方法,该方法是针对已有主动学习方法而开发的。同时,学习时长主要集中在正常模型占用计划上。学习方式则依赖于模式与支架方法。所有这些方法共同作用,去除了不必要的步骤,简化了实现学习的最佳途径(Karthika 和 Divakar,2014)。
尽管已有许多可用的学习算法,但它们未能为理解困难、行为不确定、微小变化和巨大角度差异这四个问题提供适当的解决方案。Pratama 等人(2016)指出,所提出的方法——演化型2型ELM(eT2ELM)——解决了上述四个缺点,并比现有方法取得了更好的性能。现有的eT2ELM讨论了人类学习过程中的三个主要概念,即学什么、学习方式和学习时长。“学什么”主要涉及集中于利用高质量在线主动学习概念支持反馈的信息,对训练模型至关重要,这使得 eT2ELM能够作为分隔器运行。学习方式在现有方法和所提出的方法之间更新了评判标准。这使得未知链接能够通过没有对未知链接建模的信息流进行开发和调整。学习时长取决于正常分配计划。所提出的方法克服了现有方法的所有问题。
最近开发的学习方法为现有方法增加了额外的优势,因为它们关注学习的三个重要部分:学什么、学习方式和学习时长。目前所有模型都消除了支架概念的使用,而该概念可在连接建立分隔器后立即保持功能行为。这些方法耗时较长,因为在训练模型时需要额外的计算时间。Pratama 等人 (2015a, 2015b) 指出,所提出的方 法采用了通用分类器 (gClass)。其中,“如何学习”部分涉及支架模型的操作,该模型旨在提升对复杂过程进行排序和组织的能力。此外,该模型利用模式模型来获取重要信息。“学什么”部分则采用了一种在线主动学习方法。从演示中可以明显看出,gClass 的功能表现更优。
如今,学习模型的重要性主要体现在对三种学习方法的分析上,即学什么、何时学习以及如何学习。大多数现有方法在连接后无法立即发挥功能作用,因此需要额外的支持来实现这一功能。此外,这些方法依赖于一阶神经元,而一阶神经元存在某些相关困难,这成为所有现有方法中的主要挑战。Lim 等人 (2015) 强调,所提出的方法通过使用支架型二分类器 (ST2Class) 克服了这一困难,该分类器在各种环境下均能良好运行。该分类器是基于二阶模糊神经网络 (FNN) 构建的,利用了高斯导数作为输入,并采用了非直线形式的不同变体作为结果。学什么模型通过使用不确定参数进行开发,而如何学习的基础则运用了架构和支架概念。正常分配计划被用于何时学习的方法。所提出的方法取得了最佳结果。
Pratama 等人 (2013) 在现有算法的基础上,提出了一种新的通用进化神经模糊系统 (GENEFIS),该系统采用了一种新型的模糊概念导向分割器。GENEFIS 通常包含两种不同的结构类型,即零型和一型,具体取决于所给定的准则。GENEFIS‐class 将该算法视为划分过程的核心算法。该算法在相关计算中具有更高的效率和可靠性。GENEFIS 从零开始执行任务,这一过程包括自由的初始化步骤以及对有价值信息的深入收集。模糊概念的建立基于信息流。相反,在系统生命周期内存在的模糊概念则通过训练方法期间提供的支持进行调整和塑造。同时,模糊过程与相关任务相结合,形成基于镜像的过程。所提出的方法所带来的优势似乎更为显著。
3 所提出的方法
特征子集选择是识别并去除大量无关特征或数据的过程。由于分类准确率会受到无关特征或数据的影响,因此所提出的方法采用最优特征子集选择方法。在我们所提出的方法中,该方法首先对输入数据集进行预处理。在预处理过程中,我们选择数值数据并去除非数值数据。此处,所提出的方法以微阵列数据集作为输入。然后,需要对相关特征或数据进行聚类。对于聚类,我们采用MKFCM算法。为了提高所提出方法的效率,在聚类算法之后构建最小生成树。在树构建之前,每个簇作为优化技术的输入。所提出的方法使用二进制布谷鸟搜索算法进行最优特征或数据选择。在获得最优结果后,生成最小生成树,此处采用普里姆算法进行树生成。最后,使用神经模糊分类器对医疗数据进行分类。此处,最小生成树的最终输出作为分类器的输入。分类器的目标函数用于将医疗数据分类为正常或异常。所提出的工作的详细过程将在后续章节中说明,所提出方法的整体框图如图1所示。
提出的框架的整体过程分为三个步骤,例如:
1 预处理
2 聚类和树生成
3 使用神经模糊分类器进行分类。
3.1 预处理
分析未经过仔细筛选以解决此类问题的数据可能会产生误导性结果。因此,在进行分析之前,数据的表示形式和质量至关重要。如果存在大量无关和冗余信息,或存在噪声及不可靠数据,则训练阶段的知识发现将更加困难。数据准备和过滤步骤可能需要耗费大量的处理时间。在预处理阶段,输入数据集被作为输入,此处的输入数据为原始数据。原始数据极易受到噪声、缺失值和不一致的影响。数据质量直接影响结果。为了提高数据质量,进而提升结果质量,需对原始数据进行预处理,以提高挖掘过程的效率和便捷性。数据预处理是数据挖掘过程中最关键的步骤之一,涉及初始数据集的准备和转换。本文中,对数据集应用预处理,以从非数值数据中获取数值数据。在此阶段,去除非数值数据,获得用于后续处理的数值数据集。
3.2 最优特征选择
为了选择最优特征,所提出的方法采用聚类与树生成过程。在对输入微阵列数据集进行预处理后,需要基于聚类算法对输入数据进行聚类。此处,所提出的方法使用 MKFCM算法对数据进行聚类。MKFCM算法的详细说明见下节。
3.2.1 改进的基于核的模糊C均值聚类
改进的基于核的模糊c均值算法,该算法通过改进的核学习设置扩展了核模糊C均值算法。所提出的改进的基于核的模糊c均值算法的目标函数可有效解释如下:
$$
F_{objective} = \sum_{i=1}^{n} \sum_{j=1}^{m} M_{ij}^a (1 - K_{MK}(x_j, C_i))
$$
其中
$M_{ij}$ 是数据$j$在簇$i$ $C_i$中的隶属度
$C$是聚类中心
$K_{MK}$是改进的核函数。
在改进的基于核的模糊c均值中,$x_j$表示核函数$k_{MK}(a, b)$。在此,我们为所提出的工作考虑了多个核,即线性和二次核。因此,$k_{MK}(a, b) = k_1(a, b) + k_2(a, b)$是一个核。
$$
K_{MK}(a, b) = K_1(a, b) + K_2(a, b)
$$
$$
K_1(a, b) = a^T b + c
$$
$$
K_2(a, b) = 1 - \frac{|a - b|^2}{c + |a - b|^2}
$$
其中$c$是常数值。
现在,聚类中心计算通过公式(5)完成,
$$
C_i = \frac{\sum_{j=1}^{n} M_{ij} k_{MK}(a, b)}{\sum_{j=1}^{n} M_{ij}}
$$
成员更新通过公式(6)完成,
$$
M_{ij} = \frac{1}{\sum_{k=1}^{m} \left( \frac{K_{MK}(x_j, C_i)}{K_{MK}(x_j, C_k)} \right)^{\frac{2}{a-1}}}
$$
如果 $| M(K+1) – M(K) | < \in$ ,则停止,
基于MKFCM,特征被聚类。在KFCM过程之后,我们得到簇集的数量,例如 $C_1, C_2, C_3,…, C_n$。该相关过程被反复执行,直到每个簇的更新后的聚类中心在连续迭代中变得完全相同。该聚类数据集用于进一步处理。为了提高所提出的方法的效率,在聚类算法之后我们构造最小生成树。
3.2.2 最小生成树生成
最小生成树是连通无向图的一种生成树,它通过其边的最小总权重将所有顶点连接在一起。在所提出的方法中,使用普里姆算法实现最小生成树。为了生成最小生成树,必须选择最优特征,因此该方法采用二进制布谷鸟搜索算法。二进制布谷鸟搜索算法的逐步过程将在后续章节中描述。
3.2.2.1 二进制布谷鸟搜索算法
布谷鸟搜索算法是一种受布谷鸟繁殖行为启发的元启发式算法,易于执行。在布谷鸟搜索中存在多个巢,每个蛋代表一个解,而布谷鸟的蛋代表一个新解。在所提出的方法中,解表示特征值。新的更好的解将替换鸟巢中最差的解。布谷鸟搜索算法的过程如下所示:
-
初始化阶段
宿主巢的种群($F_i$,其中$i = 1, 2, …, n$)被随机初始化。 -
适应度评估阶段
接下来,通过目标函数评估生成的布谷鸟,以确定解的质量。根据公式评估适应度函数,然后选择最优解。
$$
\text{maxfitness} = \text{准确率}
$$
-
更新阶段
通过莱维飞行修改第一个解。评估新解的优良性,并在随机选择的巢穴中进行比较。如果所选巢穴中新解的性能优于旧解,则用新解(布谷鸟)替代旧解;否则,保留之前的解作为最佳解。普通布谷鸟搜索算法所使用的莱维飞行是,
$$
F_i^{(t+1)} = F_i^{(t)} + \alpha \oplus \text{Levy}(\lambda)
$$
在我们所提出的方法中,使用二进制布谷鸟搜索算法来选择最优特征。在二进制布谷鸟搜索算法中,搜索空间被建模为维度布尔格,其中解在超立方体的顶点之间更新。此外,由于难点在于判断某一已知特征是否被选择,因此引入了一个二进制向量,其中1表示该特征将被选中以构建新的数据集,0则表示不选中。为了构造该二进制向量,我们采用了公式(10),其只能在布尔格中提供二进制值,从而确保新的解释向量仅包含二进制值。
$$
B_i^{(t)} = \frac{1}{1 + e^{-F_i^{(t)}}}
$$
$$
\begin{cases}
\text{if } rand < B_i^{(t+1)} \text{ then } 0 \
\text{if } rand > B_i^{(t+1)} \text{ then } 1
\end{cases}
$$
-
生成新布谷鸟阶段
通过莱维飞行,任意选择一只布谷鸟并产生新解。接着,利用目标函数评估所产生的布谷鸟,以确定解的质量。 -
淘汰最差巢阶段
在此阶段,根据可能性值丢弃最差的巢,并构建新巢。随后,根据其适应度函数对最优解进行排序。接下来,识别出最优解并标记为最优解。 -
停止准则阶段
直到最大迭代完成,该过程才会被复制。根据上述步骤,建议的方法选择最优特征,然后为所提出的工作生成树构建。
3.2.2.2 使用普里姆算法的树生成
普里姆算法是一种贪心方法,可帮助我们获得最小生成树。普里姆算法使用集合概念。该算法不是通过边的排序顺序来处理图,而是通过随机处理图中的边并构建不相交集合来实现。以下是普里姆算法的逐步过程:
Prim算法的逐步过程
输入: 由$n$个顶点和边组成的非空连通加权图,可能具有零权重。
最终路径中的最小生成树
步骤1:从任意顶点开始。
步骤2:记下从该顶点引出的所有边。
步骤3:将这条边标记为已访问。
步骤4:选择一条具有最小权重的边。
步骤5:遍历到另一端。从列表中删除此边并将其插入到最小生成树
步骤6:对新访问的顶点重复此过程。
步骤7:每次访问一个顶点时,检查该顶点是否已被访问,只有在这种情况下我们才进行后续操作将边添加到列表并选择最小值的过程。
步骤8 如果不是,则直接选择下一条最小边。
步骤9 重复此过程,直到所有节点都被访问。
示例 :使用普里姆算法在以下加权图中找到最小生成树。
普里姆算法在图的两条不相交集合的边上运行。如果边数和节点数都较少,普里姆算法具有更短的运行时间。普里姆算法的执行过程如下。首先,我们添加权重为8的边 {A, F}。接着,添加权重为23 的边 {F, E}。然后,添加权重为20的边 {E, D}。接下来,添加权重为10的边 {D, C}。之后,添加权重为14的边 {C, B}。最后,添加权重为12的边 {B, G}。这样得到一棵总权重为87的最小生成树。图3 展示了一棵最小生成树。
最后,将最优最小生成树用于分类目的。所提出的方法使用神经模糊分类器进行分类。下一节将详细描述神经模糊分类器的过程。
3.3 使用神经模糊分类器进行分类
神经模糊系统具有三层架构设计;下图图4展示了神经模糊分类器系统的基本结构。
神经模糊分类器是一种基于模糊的系统,通过源自神经网络的学习算法进行训练。该学习算法仅基于局部信息进行操作,并对模糊系统提供局部修改。通常情况下,神经模糊系统能够产生非常强大的解决方案,而不是单独使用系统组件。图4中展示了指定的过程。
3.3.1 模糊化
输入值为提取的特征,这些特征被最小生成树接收,然后通过隶属函数对这些输入特征值进行模糊化处理,从而实现各个特征对不同类别的隶属。通过隶属函数从特征到类别中提取隐藏和相互关联的信息,进而利用神经模糊分类器提高分类阶段的准确率。用于计算隶属度值的公式如下所示:
$$
mf(T(z)) =
\begin{cases}
0 & \text{if } MS \leq x \
\frac{MS - x}{y - x} & \text{if } x \leq MS \leq y \
\frac{z - MS}{z - y} & \text{if } y \leq MS \leq z \
0 & \text{if } MS \geq z
\end{cases}
$$
图5展示了单个模糊集的三角形隶属函数。现在我们可以看到,x和z处的值为零,并在x和z之间的中心点y处逐渐达到最大值1。图6展示了包含所有三个具有重叠值的隶属函数的曲线图。现在,针对某一特定属性,低、中、高的隶属度曲线已显示出来。中等隶属函数需要三个参数,而低和高隶属函数各需要两个参数。
模糊化过程后的隶属度函数对模式 $MS$ 表述如下:
$$
T(mf) =
\begin{bmatrix}
mf_{1,1}(MS_1) & mf_{1,2}(MS_2) & \cdots & mf_{1,c}(MS_c) \
mf_{2,1}(MS_1) & mf_{2,2}(MS_2) & \cdots & mf_{2,c}(MS_c) \
\vdots & \vdots & \ddots & \vdots \
mf_{c,1}(MS_1) & mf_{c,2}(MS_2) & \cdots & mf_{c,c}(MS_c)
\end{bmatrix}
$$
隶属度矩阵中的所有行和列通过这种级联被翻转并转换为一个向量。该生成的向量被指定为NN的输入。
3.3.2 神经网络
在此,采用了一个具有三层结构的前馈神经网络,即输入层、隐藏层和输出层。该神经网络的输入节点总数与最小生成树中的特征数量相同。本文中,神经网络的输出节点总数与类别数量相同,目前神经网络产生两个输出节点。图7展示了神经网络的结构配置。
3.3.3 去模糊化
然后通过对神经网络的输出节点执行最大值操作来进行去模糊化过程。输出是一个单一值,对于给定的输入数据为$X_1$或$X_2$。根据该值,我们能够分类给定的输入数据是正常或异常。所提出的工作的性能将在后续章节中进行评估。
4 结果与讨论
在本节中,我们讨论从所提出的技术中获得的结果。为了实现所提出的技术,我们使用了MATLAB。该技术在配备1.6 GHz的Intel Core i5处理器和4 GB内存的 Windows机器上完成。
4.1 数据集描述
所提出的系统在广泛使用的数据集上进行了实验,即CLL_SUB_111、TOX_171、SMK_CAN_187和GLA‐BRA‐180。数据集描述的详细说明见表1。
表1 数据集描述
| 数据集 | 实例数量 | 特征 | 类别 |
|---|---|---|---|
| CLL_SUB_111 | 111 | 11,340 | 3 |
| TOX_171 | 171 | 5,748 | 4 |
| SMK_CAN_187 | 187 | 19,993 | 2 |
| GLA‐BRA‐180 | 180 | 4,915 | 4 |
4.2 评估指标
对所提出的医疗数据分类技术的评估使用了以下指标,如下方程所示:
- 敏感性 :特征选择和特征分类的敏感性通过真正例数量与真正例和假反例之和的比值来确定。该关系可表示为。
$$
S_t = \frac{TP}{TP + FN}
$$
- 特异性 :特征选择和特征分类的特异性可通过真阴性数量与真阴性和假阳性总数之间的关系来评估。特异性可表示为。
$$
S_p = \frac{TN}{TN + FP}
$$
- 准确率 :特征选择和特征分类的准确率可以通过种群中真值所占的比例来计算。准确率可以用以下公式描述。
$$
A = \frac{TP + TN}{TP + FP + TN + FN}
$$
其中TP表示真阳性,TN表示真阴性,FP表示假阳性,FN表示假反例。
4.3 性能分析
所提出的工作的结果有助于分析特征选择和分类过程的效率。随后的表2列出了八个微阵列数据集的结果。
表2 所提出的方法在不同数据集上的性能
| 数据集 | 准确率 | 敏感性 | 特异性 |
|---|---|---|---|
| CLL_SUB_111 | 0.751506 | 0.683333 | 0.813333 |
| GLA‐BRA‐180 | 0.89 | 0.773913 | 0.782979 |
| SMK_CAN_187 | 0.875777 | 0.852448 | 0.888529 |
| TOX_171 | 0.820244 | 0.754839 | 0.973831 |
从表2中,对四个不同数据集的评估指标进行了分析,由此可以观察所提出的特征选择和数据分类系统的效率。四个不同数据集的准确率值分别为75.15%、89%、87.5%和82.024%。四个不同数据集的敏感度值分别为0.68%、0.773%、0.852% 和0.754%。这四个数据集的特异性值分别为0.813%、0.78%、0.888%和0.973%。
4.4 分类的有效性
在本节中,我们解释了利用最优最小生成树和神经模糊分类器进行特征选择和医疗数据分类的效率。目标函数用于选择最优特征并实现最大分类准确率。在分类阶段,训练和测试过程在工作中起着重要作用。为了证明所提出的工作的效率,我们将所提出的方法与现有工作进行比较。此处,所提出的方法将现有工作视为传统神经网络。
在我们的研究中,我们采用最优特征选择方法和高效的分类技术对医疗数据进行分类。在分析图8时,将所提出的最优最小生成树与分类技术同传统神经网络进行了比较。模糊和KNN分类器。通过检查图8,我们可以发现,所提出的最优特征选择与分类方法在CLL‐SUB‐111数据集上相比传统神经网络、模糊和KNN分类器表现出更高的准确率值,达到75.15%。对于GLA‐BRA‐180数据集,所提出的神经模糊分类器准确率达到89%,而传统神经网络的准确率为88.2%,模糊分类器为63.1%,KNN分类器为67.3%。SMK‐CAN‐187数据集的整体准确率为87.5%,而传统神经网络的准确率为85.38%;模糊和KNN分类器在该数据集上的准确率分别为85%和84%,相较于我们提出的神经模糊分类器为最低准确率。在TOX‐171数据集中,传统神经网络、模糊分类器和KNN分类器的准确率分别为64.7%、62.4%和60.4%,而我们提出的方法达到了最高的准确率值82.02%。
分析图9时,所提出的方法在四个不同数据集上的敏感度值均达到较高水平。在 CLL‐SUB‐111数据集中,神经模糊分类器的敏感度值为0.68%,传统神经网络、模糊和KNN分类器的敏感度值分别为0.43%、0.47%和0.40%。在GLA‐BRA‐180数据集中,所提出的方法的敏感度值达到0.77%,而现有方法为0.67%,模糊分类器达到0.67%,KNN分类器达到0.57%。在SMK‐CAN‐187数据集中,所提出的方法实现了最高敏感度值0.85%,而现有方法分别为0.77%、0.75%和0.68%,与我们所提出的技术相比为最低值。TOX‐171数据集的敏感度值达到与现有方法相比,我们所提出的方法取得了最大值。我们所提出技术的敏感度值为 0.75%,而现有方法在TOX‐171数据集上的敏感度值分别为0.39%、0.42%和0.38%。
从图10中,我们分析了四个数据集的特异性值的比较。CLL‐SUB‐111数据集的特异性值,提出的神经模糊方法为0.813%,传统方法分别达到0.49%、0.43%和0.47%。在GLA‐BRA‐180数据集中,所提出的方法达到了0.78%的特异性值,现有神经网络达到0.63%,模糊分类器达到0.60%,KNN分类器达到0.62%,相较于我们所提出的方法为最低值。对于SMK‐CAN‐187数据集,现有方法的敏感度值为0.85%、0.83%和0.80%,而我们的方法仅达到0.88%。在TOX‐171数据集中,所提出方法的敏感度值为0.973%,但现有方法分别仅为0.63%、0.58%和0.56%的较低值。
将所提出技术的时间复杂度与现有技术进行比较,结果列于表3中。
这里,我们将所提出的分类技术与现有分类器在完成四个不同数据集时的时间复杂度进行比较。我们所提出的分类技术完成该过程需要61.874秒,而现有方法在处理这四个数据集的整个过程中耗时最长。与现有分类技术相比,所建议的技术所需时间最少。从结果可以看出,我们提出的基于最优最小生成树和神经模糊分类器的医学数据分类方法优于现有方法。
表3 时间复杂度比较结果
| 分类器 | 时间(秒) |
|---|---|
| 神经模糊(所提出的) | 61.874 |
| 神经网络 | 69.846 |
| 模糊 | 155.79 |
| KNN分类器 | 180.945 |
5 结论
在本节中,采用了一种有效的技术用于医疗数据分类。此处,在高维微阵列数据集上应用最优最小生成树算法以选择最优特征。为了选择最优特征,所提出的方法使用二进制布谷鸟搜索算法。随后,通过神经模糊分类器进行分类。所提出方法的性能在四个基准数据集(CLL‐SUB‐111、GLA‐BRA‐180、SMK‐CAN‐187 和 TOX‐171)上通过敏感性、特异性和准确率进行评估。实验结果表明,所提出的分类框架在GLA‐BRA‐180数据集上取得了89%的更高准确率,优于现有神经网络的68.2%、模糊分类器的63.1%以及KNN分类器的67.3%。由此可知,我们提出的基于神经模糊分类器的预测方法优于现有方法。未来,我们将有充分的机会结合多种分类器和优化技术,进一步提升性能,达到新的卓越高度。
958

被折叠的 条评论
为什么被折叠?



