数据挖掘算法自动化设计:进化计算新途径
1. 数据挖掘与分类任务概述
数据挖掘是一个利用计算方法从现实世界数据集中提取有用或有趣知识(或模式)的研究领域。过去几十年,数据生成和存储技术飞速发展,计算机系统中存储的数据量越来越大,但我们对这些数据的理解以及对隐藏在其中的知识或模式的发现却进展缓慢。
数据挖掘可用于解决多种任务,包括分类、回归、聚类和关联发现等。这里主要聚焦于分类任务,该任务已被研究人员和从业者广泛探索。在分类任务中,分类算法以一组预分类的示例(记录、数据实例)作为输入,每个示例由一组预测属性(特征)和一个特殊的类属性描述。分类算法的目标是发现预测属性与类之间的某种预测关系(分类模型),即根据示例的预测属性值来预测其类。
然而,无论处理何种数据挖掘任务,研究人员和用户面临的主要挑战之一是选择最适合解决手头问题的算法。众所周知,没有一种算法能在所有应用领域中都表现最佳,为此还诞生了元学习这一研究领域来探讨该问题。为解决算法选择难题,提出了一种不同的方法:自动构建数据挖掘分类算法,而非进行算法选择。为实现这一目标,我们转向人工智能中极具吸引力的领域之一:计算机程序的半自动设计。
2. 规则归纳算法
为使自动化设计数据挖掘算法的任务更具可操作性,我们聚焦于规则归纳算法。规则归纳算法的主要优势在于,它能以用户直观易懂的“如果 - 那么”规则形式发现知识。具体而言,规则归纳算法发现的规则形式为“如果(条件)那么(预测类)”,规则的结果部分(那么部分)为满足规则前提部分(如果部分)条件的任何示例(记录、数据实例)预测一个类。例如,规则“如果(薪水 = 高)且(活期账户余额 = 高)那么(信用 = 好)”预测任何薪水高且活期账户余额高的客
超级会员免费看
订阅专栏 解锁全文
70

被折叠的 条评论
为什么被折叠?



