特征与模型集成:机器学习的强大组合
1. 特征选择与构建
在机器学习中,特征是我们观察数据的重要工具,不同类型的特征有着不同的特点和用途。
1.1 特征类型
- 分类特征 :也称为名义或离散特征,既没有顺序也没有尺度。
- 有序特征 :有顺序但没有尺度。
- 定量特征 :在定量尺度上表达,可计算多种统计量,如均值、中位数、众数、方差、标准差等。在机器学习中,定量特征常被称为连续特征,但这个术语不太恰当,因为它错误地暗示了其定义特征具有无限精度。而且,定量特征不一定具有加法尺度,例如表达概率的定量特征是在乘法尺度上的,对于非加法特征使用欧几里得距离是不合适的。
1.2 特征选择方法
- 过滤式方法 :基于特征的个体优点评估特征,例如信息增益。但有时单个特征的信息增益可能为零,即使它们的组合可能是一个完美的分类器。例如,考虑两个布尔特征,一半的正样本两个特征值都为真,另一半都为假,而所有负样本的特征值相反。在这种情况下,每个特征单独的信息增益为零,不太可能被特征过滤器选中。
- 包装式方法 :评估特征集,通常将特征选择“包装”在一个搜索过程中,涉及使用候选特征集训练和评估模型。常见的有前向选择法和后向消除法。前向选择法从空特征集开始,逐个添加能提高模型性能的特征;后向消除法从完整特征集开始,逐个移除能提高性能的特征。由于特征子集数量呈指数级增长,通常采用“贪
超级会员免费看
订阅专栏 解锁全文
5905

被折叠的 条评论
为什么被折叠?



