第一章 特征工程**
前言
顾名思义,特征工程就是从数据中对特征进行工程化。
一、什么是特征工程?
特征工程就是将原数据转换为能更好的代表预测模型潜在问题的特征的过程,从而提高了对未知数据的模型准确性。
二、为什么执行特征工程?
在机器学习中,任何建模技术想要获得满意的结果都需要良好的数据特征。特征对于提高模型的预测能力是非常重要的。当尝试解决现实问题时,由于特征可能存在许多问题,如缺失值、离群值、不同类型、数据收集错误等,因此并不是总是能获得理性的特征。在训练机器学习模型之前,必须进行清理、变换并找到正确的特征集。
三、特征提取
特征提取是通过对现有特征集进行一些变换,来选择新特征以去除冗余的过程。在原始数据中,可能存在很多特征。但是,我们也可以用较少的新特征来表示所有这些特征,这成为特征提取(Feature Extraction)。新特征可以向旧特征一样准确地表示数据。进行特征提取的优点在于减少了训练数据的维数。
三、特征选择
特征选择是从数据中选择特征子集的技术,它和特征提取不同,后者是创建新特征的过程。特征选择是从数据本身中找到有用的特征,它如此重要的原因在于以下几点:
- 能使用较少的特征更快地生成模型
- 易于解释和诠释特征。
- 使模型的泛化能力更好
特征选择基本上是一个搜索问题,必须找到方法来选择能产生更好结果的特征。在特征选择中使用的不同方法包括以下几种:
- 过滤法(Filter Method):这些方法基于一些统计测试以获得特征分数。每个特征用统计检验的结果来评价(如皮尔森相关、卡方检验等),并生成分数,随后根据特征的分数进行排名,并删除较低的分数的特征。
- 包装法(Wrapper Method ):这些方法利用机器学习算法找到最佳特征。首先,创建不同的特征子集。然后,利用这些特征对样本数据进行机器学习算法的训练,并对模型性能进行评价 。获得最佳性能的一组被认为是选择特征。由于使用不同特征集进行实际算法训练,因此这些方法将花费更多的时间。
还有其它方法被用于特征选择,如嵌入法(Embedded Method).这些方法也可以在征)。这些方法也可以在训练特征中选择人最佳特征。
总结
以上就是今天要讲的内容,本文仅仅简单介绍了特征工程的一些概念,下一节将会通过几个实例来展示特征数据处理的一些方法。