自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Task04 数据可视化

选择合适的图形 1、直方图 如果数据是单一的连续变量 回答数据按照何种形状分布的问题 2、箱型图 当拥有连续的变量,并且连续变量被分类变量所分割的时候。 当需要对连续变量在不同分类区间进行数据分布的比较的时候。 3、散点图 数据中包括两个连续的变量 希望回答两个变量间的关系 4、线型图 拥有两个连续型的变量 希望回答的问题是与两个连续型变量相关的 数据集的获取是连续的,是通过某种方式连接起来的 5、条形图 通常的用法 拥有一个分类的变量 需要对每个类别进行进行计数或百分比 不通常的用法

2020-08-23 10:58:42 174 1

原创 Task03 数据重构

数据合并 1.concat方法 将数据train-left-up.csv和trainright-up.csv横向合并为一张表,并保存这张表为result_up list_up = [text_left_up,text_right_up] result_up = pd.concat(list_up,axis=1) 将train-left-down和train-rightdown横向合并为一张表,并保存这张表为result_down。然后将上 边的result_up和result_down纵向合并为res

2020-08-23 10:34:28 158

原创 数据清洗及特征处理

Task02 数据清洗及特征处理 2.1 缺失值观察与处理 df.isnull().sum() 处理缺失值 df[df['Age'] == np.nan] = 0 删除缺失值 df.dropna().head(3) 填补缺失值 df.fillna(0).head(3) 2.2 重复值观察与处理 查看重复值 df[df.duplicated()] 删除重复值 df.drop_duplicates().head() 将前面清洗的数据保存为csv格式 df.to_csv('test_clear.csv

2020-08-20 22:31:40 369

原创 Task01 数据加载及探索性数据分析

Task01:数据加载及探索性数据分析 数据加载 1.1载入数据 1.1.1 任务一:导入numpy和pandas import numpy as np import pandas as pd 1.1.2 任务二:载入数据 (1) 使用相对路径载入数据 (2) 使用绝对路径载入数据 df = pd.read_csv('train.csv') df.head() df = pd.read_csv('C:‪/Users/keke/Desktop/titanic_ans7798/train.csv') 1

2020-08-17 23:16:24 349

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除