本篇笔记学习于“凡人机器学习”公众号,细致问题参见公众号。
一、特征的重要性
特征工程有多重要,“数据和特征决定了模型的上限,算法只是帮忙逼近这个上限”。特征是数据对于结果的一种描述,特征工程就是要找到对结果影响最大的特征。特征分为以下几种:
1、线性特征:可以理解为用户直接可以拿到的数据字段;
2、半隐性特征:用户数据在通过GBDT等算法的计算过程中产出的一些特征;
3、隐性特征:深度学习在很大程度上可以简化人肉特征工程的工作量,深度学习在计算中生成的特征向量一般是不可解释的。
二、显性特征基本处理方法
1、数据清洗
主要包括为两部分,一是填充缺失值,因为算法在计算过程中,需要对数据进行计算,那么对缺失的部分采取相应的处理,比如标记为特殊数据,或者填充为特定值,更一般的是取对应列的均值。二是乱码问题,将数据处理为算法可以有效运行的数据。