深度之眼比赛实战训练营第01次答疑直播

本文探讨了数据预处理的关键步骤,包括缺失值处理、数据标准化、异常值处理及环境配置。介绍了使用pandas_profiling进行EDA的方法,讨论了归一化与标准化的区别,并提供了处理缺失值和异常值的策略。
部署运行你感兴趣的模型镜像

一、缺失值的处理、数据标准化、EDA

使用pandas_Profiling实现对数据的EDA。
看数据的统计和数据的分布
统计分析,相关性图,Pearson系数(单变量)、Spearman系数(多变量)

  • 缺失值的处理:

(1)填充(以目标为导向,通过提交反馈选择用什么填充)

train.isnull() ==> 返回dataframe (train.isnull().sum() ==> 统计空值数量)

train.fillna(train[‘column_name’].mean()) # 用均值填充空值

(2)不处理

  • 数据的标准化问题:
from sklearn.preprocessing import StandarScaler, Normalizer, MinMaxScler, LableBinarizer, LabelEncoder, OneHotEncoder

# StandarScaler 标准化
# Normalizer 正规化
# MinMaxScler 最小最大值化
# LableBinarizer 二值化
# LabelEncoder 标签化
pd.unique(train['column_name']) ==> array(['value1','value2',...], dtype=object)
# OneHotEncoder 独热编码
pd.get_dummies(train['column_name']) # pandas直接实现独热编码
  • 标准化和归一化的区别:

​ 归一化:将整体数据缩放到[0,1]范围;把有量纲表达式转为无量纲表达式。

​ 标准化:将数据整体按比例缩放,使之落入一个小的特定区间。

  • 异常值的处理:

    (1)采用箱型图来进行数据可视化

    (2)采用散点图

二、环境配置问题
  • conda 虚拟环境
  • pip 本地环境
三、排名提升问题

特征工程

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值