自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

转载 2021-06-17

datawhale6月组队学习-task021. 数据清洗1.1 缺失值# 查看df.isnull.sum()# 填充df.loc[df['Age'].isnull(),'Age'] = df['Age'].mean()# 删除1.2 重复值# 查看重复值df[df.duplicated()]# 清理重复值df = df.drop_duplicates()1.3 异常值画箱线图,见task012. 特征处理2.1 分箱处理# 用cut#将连续变量Age平均分箱成5

2021-06-17 23:23:38 182

原创 datawhale6月组队学习-task01

datawhale6月组队学习-task011.数据加载利用kaggle网站的泰坦尼克号数据集进行学习分析下载网址: https://www.kaggle.com/c/titanic/overview# 导入相关库import numpy as npimport pandas as pdimport os1.1 加载数据(1) 使用相对路径载入数据# 相对路径载入os.getcwd() #查看当前工作目录,将数据集复制到这里train_data = pd.read_csv('tr

2021-06-15 21:47:17 144

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除