前言
- 在表格数据的建模中,特征工程至关重要,
OpenFE框架可以帮助我们快速找到有效益的交叉特征,并且提供一定的可解释性
- 这里提供论文地址,我在博客中也对这篇论文进行了解读,OpenFE的项目地址和官方文档
- 在使用
OpenFE时,请先安装这个库pip install openfe
使用示例
导入必要包
import datetime
import yaml
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.ensemble import RandomForestRegressor
import warnings
warnings.filterwarnings('ignore')
from openfe import openfe, transform, tree_to_formula
import multiprocessing
from typing import Tuple
导入训练数据
def read_csv(file_name: str) -> pd.DataFrame:
return pd.read_csv(file_name, encoding='utf-8')
df_train = read_csv('train.csv')
df_test = read_csv('test.csv')
使用OpenFE进行特征工程
- 函数参数说明:
df_train训练数据,df_test测试数据,target目标列名
- 输出:
train_x训练数据,train_y测试数据
def open_fe(df_train: pd.DataFrame, df_test: pd.DataFrame, target: str) -> Tuple[pd.DataFrame, pd.DataFrame]<