特征工程

最新推荐文章于 2025-06-07 22:46:44 发布

qq_33386711

最新推荐文章于 2025-06-07 22:46:44 发布

阅读量119

点赞数

分类专栏：人工智能大数据文章标签：机器学习特征工程

本文链接：https://blog.youkuaiyun.com/qq_33386711/article/details/88125846

版权

人工智能同时被 2 个专栏收录

4 篇文章

订阅专栏

大数据

3 篇文章

订阅专栏

0 写在前

特征的好坏决定了模型训练的上限。模型只是无限去接近这个上限。

1 归一化

数据归一化是消除不同特性数据的桥梁。能进一步在数值上进行有效的分析研究。这可以消除量纲的影响。

（1）线性归一化

$X_{norm}= \frac{X-X_{min}}{X_{max}-X_{min}}$

# 1
#直接计算
import numpy as np
arr = np.asarray(X)
for x in arr:
    x = float(x - np.min(arr))/(np.max(arr)- np.min(arr))
    print x
# 2
# 通过sklearn包中函数
from sklearn import preprocessing   
import numpy as np  
X = np.array([1., -1.,  2.])  
min_max_scaler = preprocessing.MinMaxScaler()  
X_minMax = min_max_scaler.fit_transform(X)

（2）零均值化归一化

$Z=\frac{X-\sigma}{\delta}$
其中 $\sigma$ 表示均值， $\delta$ 表示方差

import numpy as np
# 计算均值
arr_mean = np.mean(X)
#计算方差
arr_var = np.var(arr) 
#直接计算
arr = np.asarray(X)
for x in arr:
    x = float(x - arr.mean())/arr.std()
    print x