数据分析(三)

文章所用数据文件内容展示:

LJdata.csv

city_day.csv

1 常用排序和统计函数

1 排序

sort_values()

# by 指定排序的字段  可以传入列表,做多字段排序, 比如下面的例子:
# 当价格相同的时候, 价格相同的数据再按面积排序
# ascending 也可以传入列表,长度更by 的列表相同, 多字段排序的时候,
# 每个字段是升序还是降序排可以手动指定
df.sort_values(by=['价格','面积'],ascending=False)

nlargest()

nsmallest()

df.nlargest(5,columns=['价格'])  # 价格 n个最大的
df.nsmallest(5,columns=['价格'])  # n个最小的

2 统计函数

df.corr() 计算相关性, 判断两列数据是否同增同减

  • 如果两列变量 一个增加, 另外一个也增加, 一个减少另外一个也减少, 说明他们之间具备正相关性 , 计算出来的相关系数>0 相关系数>0.7 强相关 0.3~0.7 之间 具有相关性 <0.3 相关性比较弱

  • 如果两列变量 一个增加, 另外一个减少, 一个减少另外一个增加, 说明他们之间具备负相关性

相关性的应用场景

  • 用来判断不同数据之间是否有关联, 如果两列数据相关性比较强, 说明他们之间可能具有因果关系

  • 在数据分析过程中, 归因分析是比较重要的, 做归因可以从计算相关性开始进行分析

  • 相关不等于因果

df.min() 最小 df.max() 最大 df.mean() 平均 df.std() 标准差 df.sum() 求和

  • 计算这些统计量的时候, 如果df中又多列数值型的数据, 既可以按行计算, 也可以按列计算, 通过传入0,1来进行控制

2 缺失值处理

2.1 认识缺失值, Pandas如何表示缺失值

from numpy import NaN,NAN,nan

Nan 是一个特殊的float类型的数据, 它和任何值都不相等

2.2 加载数据后, 如何判断缺失值数量

pd
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值