- 博客(4)
- 收藏
- 关注
原创 Task04 数据可视化
选择合适的图形 1、直方图 如果数据是单一的连续变量 回答数据按照何种形状分布的问题 2、箱型图 当拥有连续的变量,并且连续变量被分类变量所分割的时候。 当需要对连续变量在不同分类区间进行数据分布的比较的时候。 3、散点图 数据中包括两个连续的变量 希望回答两个变量间的关系 4、线型图 拥有两个连续型的变量 希望回答的问题是与两个连续型变量相关的 数据集的获取是连续的,是通过某种方式连接起来的 5、条形图 通常的用法 拥有一个分类的变量 需要对每个类别进行进行计数或百分比 不通常的用法
2020-08-23 10:58:42
174
1
原创 Task03 数据重构
数据合并 1.concat方法 将数据train-left-up.csv和trainright-up.csv横向合并为一张表,并保存这张表为result_up list_up = [text_left_up,text_right_up] result_up = pd.concat(list_up,axis=1) 将train-left-down和train-rightdown横向合并为一张表,并保存这张表为result_down。然后将上 边的result_up和result_down纵向合并为res
2020-08-23 10:34:28
158
原创 数据清洗及特征处理
Task02 数据清洗及特征处理 2.1 缺失值观察与处理 df.isnull().sum() 处理缺失值 df[df['Age'] == np.nan] = 0 删除缺失值 df.dropna().head(3) 填补缺失值 df.fillna(0).head(3) 2.2 重复值观察与处理 查看重复值 df[df.duplicated()] 删除重复值 df.drop_duplicates().head() 将前面清洗的数据保存为csv格式 df.to_csv('test_clear.csv
2020-08-20 22:31:40
369
原创 Task01 数据加载及探索性数据分析
Task01:数据加载及探索性数据分析 数据加载 1.1载入数据 1.1.1 任务一:导入numpy和pandas import numpy as np import pandas as pd 1.1.2 任务二:载入数据 (1) 使用相对路径载入数据 (2) 使用绝对路径载入数据 df = pd.read_csv('train.csv') df.head() df = pd.read_csv('C:/Users/keke/Desktop/titanic_ans7798/train.csv') 1
2020-08-17 23:16:24
349
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅