四格积木-优快云博客

原创 Task04 数据可视化

选择合适的图形 1、直方图如果数据是单一的连续变量回答数据按照何种形状分布的问题 2、箱型图当拥有连续的变量，并且连续变量被分类变量所分割的时候。当需要对连续变量在不同分类区间进行数据分布的比较的时候。 3、散点图数据中包括两个连续的变量希望回答两个变量间的关系 4、线型图拥有两个连续型的变量希望回答的问题是与两个连续型变量相关的数据集的获取是连续的，是通过某种方式连接起来的 5、条形图通常的用法拥有一个分类的变量需要对每个类别进行进行计数或百分比不通常的用法

2020-08-23 10:58:42 174 1

原创 Task03 数据重构

数据合并 1.concat方法将数据train-left-up.csv和trainright-up.csv横向合并为一张表，并保存这张表为result_up list_up = [text_left_up,text_right_up] result_up = pd.concat(list_up,axis=1) 将train-left-down和train-rightdown横向合并为一张表，并保存这张表为result_down。然后将上边的result_up和result_down纵向合并为res

2020-08-23 10:34:28 158

原创数据清洗及特征处理

Task02 数据清洗及特征处理 2.1 缺失值观察与处理 df.isnull().sum() 处理缺失值 df[df['Age'] == np.nan] = 0 删除缺失值 df.dropna().head(3) 填补缺失值 df.fillna(0).head(3) 2.2 重复值观察与处理查看重复值 df[df.duplicated()] 删除重复值 df.drop_duplicates().head() 将前面清洗的数据保存为csv格式 df.to_csv('test_clear.csv

2020-08-20 22:31:40 369

原创 Task01 数据加载及探索性数据分析

Task01:数据加载及探索性数据分析数据加载 1.1载入数据 1.1.1 任务一：导入numpy和pandas import numpy as np import pandas as pd 1.1.2 任务二：载入数据 (1) 使用相对路径载入数据 (2) 使用绝对路径载入数据 df = pd.read_csv('train.csv') df.head() df = pd.read_csv('C:‪/Users/keke/Desktop/titanic_ans7798/train.csv') 1

2020-08-17 23:16:24 349

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Task04 数据可视化

原创 Task03 数据重构

原创 数据清洗及特征处理

原创 Task01 数据加载及探索性数据分析

空空如也

空空如也

原创数据清洗及特征处理