二元分类中的特征工程与逻辑回归模型构建
1. 数据驱动的特征工程
在进行下游特征工程步骤之前,查看数据类型(如分类或数值)并得出汇总统计信息是快速了解数据的好方法。以下是查看数据类型和描述性统计信息的示例代码:
import pandas as pd
file_url = 'https://raw.githubusercontent.com/PacktWorkshops/The-Data-Science-Workshop/master/Chapter03/bank-full.csv'
bankData = pd.read_csv(file_url, sep=";")
# 查看数据类型
print(bankData.dtypes)
# 查看描述性统计信息
print(bankData.describe())
描述性摘要的目的是快速了解数据的分布和一些基本统计信息,如均值和标准差。对汇总统计信息有一个清晰的认识,对于思考每个变量需要进行何种转换至关重要。例如,在之前的练习中,我们根据分位数将数值数据转换为分类变量。
2. 相关矩阵与可视化
相关系数是衡量两个变量如何一起波动的指标。相关值为 1 或接近 1 表示这些变量高度相关。高度相关的变量有时会损害模型的准确性,在许多情况下,我们会决定消除这些变量或将它们组合成复合或交互变量。
2.1 练习:使用银行数据查找数据中的相关性并生成相关图
以下是完成此练习的步骤:
1. 打开一个新的 Colab 笔记本,安装 pandas 包并加载银行数据:
超级会员免费看
订阅专栏 解锁全文
4215

被折叠的 条评论
为什么被折叠?



