一 什么是特征工程
特征是指数据中抽取出来的对结果预测有用的信息
特征工程是使用专业背景和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
特征工程的意义:1.更好的特征意味着更强的灵活性 2更好的特征意味着只需要简单模型 3更好的特征意味着更好的结果
应用机器学习的主要工作就是特征工程
数据和特征决定了算法能达到的上限,算法和模型的选择只是无限接近这个上限
如何特征十分清晰、易辨别,可能不需要神经网络这样复杂的算法,只需要常见的机器学习算法就能达到很好的结果
二 特征工程在实际工作中的作用
工作中可能70%的时间处理数据,30%的时间建模、模型状态评估、ensemble。
算法、模型的研究是一些算法专家、专业人员在做
大部分人的工作:
1. 跑数据,各种map-reduce, hive sql,数据库搬砖