基于本体的特征选择算法推荐方法
在数据挖掘和机器学习领域,特征选择算法的选择对模型性能有着至关重要的影响。传统的“试错法”虽然有效,但效率较低。因此,如何根据数据集的特征自动选择合适的特征选择算法成为了一个重要的研究方向。本文将介绍一种基于本体的方法,用于推荐特征选择算法。
特征选择与元特征
特征选择主要有两种方法:过滤法和包装法。不同的特征选择算法在不同的数据集上表现各异,这促使研究人员探索数据集特征与特征选择算法之间的内在关系。元特征是描述数据集属性的特征,对在该数据集上训练的机器学习算法的性能具有预测性。数据集的特征可以通过简单、统计和信息理论特征、基于模型的特征以及地标特征这三组不同的度量来提取。
| 数据集特征类型 | 度量指标 | 描述 |
|---|---|---|
| 简单特征 | 类的数量、特征数量、实例数量 | 从平面文件中获取的属性 |
| 统计特征 | 特征属性的平均相关性、特征的平均不对称性 | 计算属性对之间的线性关系程度,描述数据分布与对称条件的偏离 |
| 信息特征 | 类熵、信噪比、等效属性数量 | 表示数据集中观察值对应某一类别的概率分布,指示数据集中不充分数据的数量,代表表示类所需的最小属性数量 |
超级会员免费看
订阅专栏 解锁全文
1016

被折叠的 条评论
为什么被折叠?



