本节主要介绍数据和特征处理。
https://github.com/liuleigit/ML_tutorial
一 特征处理
(1)数值型
1. 特征缩放
包括标准化和归一化,参看 http://blog.youkuaiyun.com/leiting_imecas/article/details/54986045
2. log等变化
特征可能不能通过线性的方式缩放。例如特征符合指数分布,此时可以使用log变化可以将指数域变化到对数域
3.统计值max, min, mean, std
4.离散化(discretization)-----最常见
把连续的值分段,变成离散的值。例如数值在0-100,0-30表示为向量000,30-80表示为001,80-100表示为100.
<1>.有时离散型变量更容易理解; 离散化后方便给不同数值段提供不同的权重
<2>.离散化有不同的方式,常见的有等距切分、等频切分
5.hash分桶
6.每个类别下对应的变量统计值histogram(分布状况)
7. 有时做相反的操作:数值型->类别型
(2)类别型 category
有三种颜色红、蓝、绿
1. one-hot encoding(