自动特征生成框架OpenFE使用示例

原创

已于 2023-03-14 12:09:08 修改 · 3.8k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #机器学习 #自动特征工程 #OpenFE

于 2023-03-14 11:11:58 首次发布

文章介绍了OpenFE框架在特征工程中的应用，它帮助快速构建有效的交叉特征并提供可解释性。通过Python代码示例展示了如何使用OpenFE处理数据，选择特征，并训练随机森林模型。文章还讨论了优化OpenFE性能的策略，包括调整参数和特征选择。

前言

在表格数据的建模中，特征工程至关重要，OpenFE框架可以帮助我们快速找到有效益的交叉特征，并且提供一定的可解释性
这里提供论文地址，我在博客中也对这篇论文进行了解读，OpenFE的项目地址和官方文档
在使用OpenFE时，请先安装这个库pip install openfe

使用示例

导入必要包

# 加载包
import datetime
import yaml
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.ensemble import RandomForestRegressor

# 忽略警告
import warnings
warnings.filterwarnings('ignore')

from openfe import openfe, transform, tree_to_formula
import multiprocessing
from typing import Tuple

导入训练数据

def read_csv(file_name: str) -> pd.DataFrame:
    return pd.read_csv(file_name, encoding='utf-8')

df_train = read_csv('train.csv')
df_test = read_csv('test.csv')

使用OpenFE进行特征工程

函数参数说明：df_train训练数据，df_test测试数据，target目标列名
输出：train_x训练数据，train_y测试数据

def open_fe(df_train: pd.DataFrame, df_test: pd.DataFrame, target: str) -> Tuple[pd.DataFrame, pd.DataFrame]<

最低0.47元/天解锁文章

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

羽星_s 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。