帕累托最优模型树的多目标进化方法研究
1 引言
数据挖掘的关键在于揭示数据中隐藏的重要信息。决策树作为常用的预测技术,以其易于理解、可视化和解释的特点,在数据挖掘领域占据重要地位。然而,尽管决策树研究已有 50 年历史,但仍有改进空间,如寻找更好的结构、分割和叶节点模型,进行多目标优化或高效分析成本敏感数据等。
为解决这些问题,进化算法被应用于决策树的归纳。该方法的优势在于全局搜索分割和预测,相较于贪婪策略,能生成更简单且准确的树。本文旨在让决策者根据对树的可理解性和准确性的偏好选择理想的输出模型,主要贡献是提出了一种用于帕累托最优模型树的多目标进化方法。
2 背景知识
2.1 决策树
决策树可根据应用问题类型、归纳方式或结构类型进行分类。本文聚焦于模型树,它是典型回归树的扩展,用于近似实值函数而非分类任务。虽然回归和模型树不如分类树流行,但它们在与不同机器学习算法的竞争中表现出色。
简单回归树的每个叶节点关联一个常数值,通常是目标属性的平均值;而模型树的叶节点则用线性(或非线性)回归函数替代。预测目标值时,新测试实例从根节点开始,根据其属性值在每个内部节点进行路由决策,最终到达叶节点,并根据叶节点的回归模型评估预测值。
决策树的归纳主要有自上而下和全局两种方法:
- 自上而下方法 :基于递归分区的贪婪过程。从根节点开始,根据给定的最优性度量搜索局部最优分割,然后将训练实例重定向到新创建的节点,重复此过程直至满足停止条件。为避免过拟合,通常在归纳后进行后剪枝。这种方法速度快且高效,但往往只能得到局部最优解。典型代表有分类与回归树(CART)和 M
超级会员免费看
订阅专栏 解锁全文
333

被折叠的 条评论
为什么被折叠?



