生物医学数据集分类潜力与分类准确率的综合研究
1. 引言
生物信息学和计算生物学的进步使得生物医学数据集的复杂性不断增加。先进设备产生的大量数据给电子存储和高效处理带来了挑战,其中一个关键问题是如何从海量原始数据中自动提取准确、易懂且隐藏的知识,这些知识有助于医学专家对数据集中的异常进行分类。
常见的数据挖掘和分类技术包括概率方法、神经网络、支持向量机、决策树等。进化算法因其具有自适应、鲁棒性和集体学习等特性,适用于解决现实世界中的复杂问题,在医学数据集的数据挖掘中越来越受欢迎。然而,研究人员在为生物医学数据集选择合适的分类器时面临困难,通常只是通过经验评估几种机器学习技术并选择效果较好的一种,而没有系统地研究影响分类器准确性的因素。
本文的重要贡献在于指出分类器的准确性取决于数据集的复杂性,我们从缺失值、不平衡比率、噪声和信息增益四个方面量化了生物医学数据集的复杂性,并评估了六种知名的进化规则学习分类器在31个公开可用的生物医学数据集上的性能。实验结果表明,分类准确率强烈依赖于生物医学数据集的复杂性,且噪声是决定数据集复杂性的主要因素。
2. 相关工作
不同研究对进化算法在各种生物医学领域的性能进行了分析。例如,Wong等人将进化算法应用于骨折和脊柱侧凸数据库,发现其有助于发现有趣的模式;John Holmes提出EpiCS系统以提高不平衡类数据集中的分类准确率,但使用的是人工创建的肝癌数据集;Bernado - Mansilla通过几何描述符表征分类问题的复杂性并分析XCS的能力等。然而,以往的研究大多倾向于特定的分类器,而本文采用了一种新的方法来量化数据集的复杂性,这决定了分类器的准确性,并构建了一个元模型来确定生物医学数据集的分
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



