常见面试题(一)~特征工程
特征工程
1 归一化
* 为什么需要对数值类型的特征做归一化?
答:消除数据特征之间的量纲影响,防止数据间悬殊过大。(数据间悬殊越大,收敛越慢)
- 对数值类型的特征如何做归一化:
(1)线性函数归一化(Min-Max Scaling)

(2)零均值归一化(Z-Score)

Z-score的结果是将原始数据映射到均值为0、标准差为1的分布上
适用性:
通过梯度下降求解的模型通常需要归一化,例如线性回归/逻辑回归/神经网络/SVM…
决策树等少数模型是通过信息增益来划分属性,不需要归一化
2 类别特征
* 在对数据进行预处理时,应该怎样处理类别特征?
(1)序号编码
处理具有大小关系,如对成绩分成低中高三段
(2)独热编码
处理不具有大小关系
若类别取值较多,注意:
①使用稀疏向量来节省空间
②配合特征选择来降维
- K近邻中,高维空间下两点之间的距离很难有效衡量
- 高维会过拟合
- 只有部分特征有贡献

最低0.47元/天 解锁文章
46万+

被折叠的 条评论
为什么被折叠?



