- 博客(2)
- 收藏
- 关注
转载 2021-06-17
datawhale6月组队学习-task02 1. 数据清洗 1.1 缺失值 # 查看 df.isnull.sum() # 填充 df.loc[df['Age'].isnull(),'Age'] = df['Age'].mean() # 删除 1.2 重复值 # 查看重复值 df[df.duplicated()] # 清理重复值 df = df.drop_duplicates() 1.3 异常值 画箱线图,见task01 2. 特征处理 2.1 分箱处理 # 用cut #将连续变量Age平均分箱成5
2021-06-17 23:23:38
161
原创 datawhale6月组队学习-task01
datawhale6月组队学习-task01 1.数据加载 利用kaggle网站的泰坦尼克号数据集进行学习分析 下载网址: https://www.kaggle.com/c/titanic/overview # 导入相关库 import numpy as np import pandas as pd import os 1.1 加载数据 (1) 使用相对路径载入数据 # 相对路径载入 os.getcwd() #查看当前工作目录,将数据集复制到这里 train_data = pd.read_csv('tr
2021-06-15 21:47:17
116
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人