四种数据挖掘软件的比较与应用
1. 引言
在数据挖掘领域,有许多非免费开源的软件可供选择。本文将介绍四种这样的数据挖掘软件:SAS® Enterprise MinerTM、Megaputer PolyAnalyst® 5.0、NeuralWare Predict® 和 BioDiscovery GeneSight®。这些软件由相关厂商以学术优惠价格提供,用于课堂教学和支持研究。我们将对它们的现有功能、特点和算法进行描述和比较,并将它们应用于一个包含 63,377 行和 54 个属性的森林覆盖类型大型数据库。
2. 背景知识
2.1 历史背景
数据挖掘的算法一直是研究的重点。不同学者对其进行了广泛讨论,例如 Han 和 Kamber(2006)、Kleinberg 和 Tardos(2005)以及 Fayyad 等人(1996)。算法是指具有完全定义的步骤或操作,能产生特定结果的过程,这与基于理论推理或统计证据的启发式方法不同。数据挖掘被定义为从大型数据库中提取隐藏的预测信息,像 The Data Intelligence Group(1995)所描述的那样,数据挖掘工具会在数据库中搜索隐藏模式。
同时,不同的研究者还对数据挖掘的不同方面进行了阐述。Brooks(1997)区分了基于规则的工具和算法;Witten 和 Frank(2005)描述了数据挖掘算法的工作原理,包括覆盖算法、基于实例的学习等,并介绍了开源数据挖掘软件 WEKA 的使用。此外,关于微阵列数据库的研究也有很多,如 Segall(2006)对生物技术中的微阵列数据库进行了详细介绍,Piatetsky - Shapiro(2003)讨论了微阵列数据挖掘的挑战。
四种数据挖掘软件的比较与应用
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



