从商业数据分析和挖掘的角度详细地介绍了特征工程及其使用的响应方法,主要包括:
- 数据预处理
- 特征构造
- 特征抽取
- 特征选择
系统性地说明了用于构建分析用的结构化数据的过程。 那么走深度学习路线是否就不需要特征工程了呢,其实不然,特征工程和数据预处理并没有太明显的区分,一个好的数据预处理或者特征工程还是能够对深度学习或者机器学习起到非常有用的帮助。
特征工程概述
在商业数据的分析挖掘当中,最常用的数据是结构化数据,其呈现为二维表的结构,数据可以用装载到二维数组当中,其中的每个数可以使用行与列进行索引。结构化数据中的每一行称为记录,也可称为样本或实例(视不同的学科而定),每一列则被称为字段,也可称为变量或特征(同样视学科领域而定),其中"特征(Feature)"这一叫法在机器学习及模式识别当中被广泛使用,在应用当中只要不引起歧义,可以不区分它们的叫法。
特征(feature)是一个被观察到的现象的可测量的属性,结构化数据中,特征通常以列的形式出现,用于措述记录在某些方面的属性;非结构化数据同样如此,例如对于一个文档,短语或单词的计数就可以是其一个特征。
特征是模型的输入,而不同的模型对输入有不同的要求。正因如此,原始数据往往需要通过一定的处理和转换才能在模型中使用,而为了提升模型的表现,又需要对所有可用的特征进行一定的筛选,既保证重要的特征进入模型,又要保证不会选择过多的特征。
所有这些在建模前对数据进行处理、转换、筛选的工作被称为特征工程(Feaure Engineerng),其本质上是对原始数据的再加工,目

订阅专栏 解锁全文
611

被折叠的 条评论
为什么被折叠?



