1、特征重要性提取:
对于xgb,lgb等模型,都会有model.feature_importance_方法,对特征的影响程度展示。
2、函数参数(*arg,**kwargs)
*args 用来将参数打包成tuple给函数体调用
**kwargs 打包关键字参数成dict给函数体调用
例子:

3、删除多余变量的方法
通过删除一整行index实现:
data = {
"a":[1,2,3],
"b":[4,5,6],
"c":[7,8,9]
}
df = pd.DataFrame(data,columns=['a','b','c'],index=['x','y','z'])
print(df)
df.drop(df[df['b']==5].index)

4、from scipy.special import boxcoxlp
box-cox变换的用处:
- 通常对于y进行log变换,因为诸如线性模型、SVM等要求target variable是服从正态分布的
- 线性回归模型满足线性性、独立性、方差齐性以及正态性的同时,又不丢失信息,此种变换称之为Box—Cox变换。
Box-Cox变换的正态变换:

没有Box-Cox变换的回归:

Box-Cox变换之后的回归:

变换方法:
skewness = skewness[abs(skewness) > 0.75]
from scipy.special import boxcox1p
skewed_features = skewness.index
lam = 0.15
for feat in skewed_features:
#all_data[feat] += 1
all_data[feat] = boxcox1p(all_data[feat], lam)
本文探讨了特征工程中的关键概念,包括特征重要性的提取方法,如何利用Box-Cox变换进行数据预处理以满足线性模型的要求,以及在Python中实现这些技术的具体步骤。
3567

被折叠的 条评论
为什么被折叠?



