- 博客(2)
- 收藏
- 关注
转载 2021-06-17
datawhale6月组队学习-task021. 数据清洗1.1 缺失值# 查看df.isnull.sum()# 填充df.loc[df['Age'].isnull(),'Age'] = df['Age'].mean()# 删除1.2 重复值# 查看重复值df[df.duplicated()]# 清理重复值df = df.drop_duplicates()1.3 异常值画箱线图,见task012. 特征处理2.1 分箱处理# 用cut#将连续变量Age平均分箱成5
2021-06-17 23:23:38
182
原创 datawhale6月组队学习-task01
datawhale6月组队学习-task011.数据加载利用kaggle网站的泰坦尼克号数据集进行学习分析下载网址: https://www.kaggle.com/c/titanic/overview# 导入相关库import numpy as npimport pandas as pdimport os1.1 加载数据(1) 使用相对路径载入数据# 相对路径载入os.getcwd() #查看当前工作目录,将数据集复制到这里train_data = pd.read_csv('tr
2021-06-15 21:47:17
144
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅