Kaggle实战(一):数据相关性分析

本文探讨了Kaggle实战中的一项关键步骤——数据相关性分析。通过实例指出cont11和cont12特征具有高度线性相关性,建议在建模前考虑移除其中一个以避免冗余信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.特征相关性分析

# 导入必要模块
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
import seaborn as sns  # 一个简单的画图函数
color = sns.color_palette()

%matplotlib inline

# 利用pandas读取数据
dpath = 'F:/Python_demo/XGBoost/data/'

train = pd.read_csv(dpath + "AllstateClaimsSeverity_train.csv") 

print(train.head(5))  # 显示前5行数据
print(train.info())  # 显示数据相关信息

split = 117  # 分割位置
size = 15  # 总共提取的列数
data=train.iloc[:,split:]  # 提取列数据

cols=data.columns   #
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值